AI thường bịa chuyện thay vì bảo "tôi không biết". Thiết kế: N.H
Tình trạng AI bịa chuyện (hay thuật ngữ chuyên môn là AI "hallucination") đã diễn ra từ rất lâu. Các nhà huấn luyện AI đã ý thức được chúng ngay từ khi chủ đề này còn ở trong phòng thí nghiệm nhưng ít được công chúng biết đến.
Tuy nhiên, đến tận bây giờ, khi các mô hình ngôn ngữ lớn (LLM) như ChatGPT, Gemini hay Claude đã trở nên phổ biến với hàng trăm triệu người dùng trên thế giới, thì những lỗi về AI "bịa chuyện" vẫn chưa được khắc phục.
Khi năng lực của các mô hình LLM tăng lên, việc "bịa chuyện" của chúng cũng trở nên nghiêm trọng hơn. Trước đây, lỗi thường chỉ là những chi tiết nhỏ như số liệu không khớp (đọc số 8 thành số 6), hay thông tin thiếu chính xác (nhầm ngày tháng năm sinh, quê quán của nhân vật lịch sử nổi tiếng). Ngày nay, các LLM có thể tự tạo ra những nội dung hoàn toàn không có thật – từ những trích dẫn bài báo khoa học ma, đến một án lệ xét xử chưa từng có, hay một căn bệnh mới.
Sự sáng tạo ngoài ý muốn này của AI tạo ra rủi ro lớn nếu người sử dụng thông tin cho báo chí, nghiên cứu và tư vấn chuyên môn mà không có đủ kỹ năng kiểm chứng. Vậy, vì sao AI lại "bịa chuyện" thay vì trả lời là "tôi không biết"?
Thà đoán mò còn hơn để giấy trắng
Trong một bài nghiên cứu đăng trên arXiv hồi tháng 9/2025, các nhà nghiên cứu tại OpenAI đưa ra câu trả lời một phần là vì các phương pháp đánh giá hiện tại có các thiết lập khuyến khích sự lệch lạc.
"Mặc dù bản thân các đánh giá không trực tiếp gây ra hiện tượng AI bịa chuyện, nhưng hầu hết các đánh giá lại đều đo lường hiệu suất của mô hình theo cách thức khuyến khích đoán mò thay vì nói thật về việc không chắc chắn", các tác giả viết.
Điều này khá giống khi học sinh chúng ta làm bài thi trắc nghiệm. Nếu không biết câu trả lời nhưng đoán bừa, ta có cơ may chọn được trúng câu trả lời đúng. Nếu để trống đáp án thì chắc chắn sẽ nhận điểm 0. Tương tự như vậy, khi các mô hình AI chỉ được đánh giá dựa trên độ chính xác, tức là tỷ lệ phần trăm câu hỏi đã được trả lời đúng hoàn toàn, chúng sẽ có xu hướng đoán mò thay vì nói "Tôi không biết".
Theo các chuyên gia, sự bịa đặt vẫn tồn tại ngay cả trong những mô hình AI tiên tiến nhất vì chúng bắt nguồn từ các lỗi trong việc phân loại nhị phân (đúng/sai). Nếu không được cài đặt khả năng phân biệt câu trả lời nào là "đúng" và "sai", thì về mặt thống kê, cả hai đáp án đều có giá trị như nhau với AI. Dưới áp lực thống kê, tự nhiên mô hình AI sẽ chọn câu trả lời nào xuất hiện thường xuyên nhất.
Một kết quả đánh giá AI theo SimpleQA. Ảnh: Open AI
Ví dụ, hãy xem xét bài đánh giá AI thông qua các câu hỏi đơn giản SimpleQA. Xét về mức độ chính xác, mô hình OpenAI o4-mini cũ thực hiện tốt hơn một chút so với mô hình GPT-5 mini (24% so với 22%). Tuy nhiên, tỷ lệ sai sót (tức là tỷ lệ bịa ra thông tin không có thật) của mô hình đó lại cao hơn đáng kể (75% so với 26%). Ở đây, chiến lược đoán mò khi không chắc chắn đã giúp 04-mini cải thiện số câu trả lời chính xác hơn một chút, nhưng đồng thời cũng làm tăng số câu trả lời sai sót lên rất nhiều.
Hiện nay, các công ty công nghệ lớn đang chạy đua trên các bảng xếp hạng bằng các bài test xem AI nào thông minh hơn. Điều này dẫn đến việc AI sẽ tìm mọi cách nâng số câu trả lời đúng lên, kể cả bằng cách bịa chuyện.
Theo nhóm tác giả, chúng ta không nên tạo thêm các bài kiểm tra để xem AI có bịa chuyện hay không, mà phải sửa ngay cách chấm điểm (benchmark) của các bài kiểm tra đã có - ví dụ như cho điểm AI nếu nó biết nói "Tôi không biết" và trừ điểm thật nặng AI nếu nó đoán mò bị sai. Điều này tự khắc sẽ giúp huấn luyện ra những AI trung thực và đáng tin cậy hơn.
Vấn đề là liệu các công ty AI có sẵn lòng làm điều đó không khi nó khiến cho kết quả chấm điểm AI của họ thoạt trông có vẻ yếu kém hơn AI của đối thủ?
AI không thực sự "biết" đúng-sai
Mặc dù đoán mò đáp án khiến AI nghe có vẻ rất "con người", giữa cách AI và con người hiểu thế giới vẫn tồn tại một khác biệt căn bản: AI chưa thực sự có khả năng tự nhận biết điều gì đúng hay sai.
Tiêu chuẩn để AI phân biệt đúng - sai vẫn phụ thuộc vào kiến thức, đánh giá và sự kiểm chứng từ con người, thay vì xuất phát từ một cơ chế nhận thức độc lập của chính nó.
Bởi vậy, một trong những thách thức lớn nhất khi tạo ra AI là giúp nó trả lời một câu hỏi tưởng chừng rất đơn giản: "Rốt cuộc, thế nào mới được gọi là đúng?"
Hãy nhìn vào thời gian mà các kỹ sư phải bỏ ra để thiết lập một mô hình AI. "Mọi người cứ nghĩ 99% thời gian là để dành đào tạo AI. Nhưng thực tế, 50% thời gian chúng tôi dùng để đánh giá và kiểm định các khái niệm, 40% để làm sạch dữ liệu, 8% để tích hợp vào hệ thống, và chỉ cần 2% thời gian để huấn luyện mô hình", Yun-Ta Tsai, một kỹ sư AI đã có nhiều năm làm việc tại Tesla và Google chia sẻ trên X.
Trong đó, công đoạn đầu tiên - chuẩn bị về hệ thống khái niệm và cách phân loại dữ liệu (ontology) cho AI - chính là cách các kỹ sư định nghĩa thế giới cho AI. Ví dụ, trong bài toán chẩn đoán ung thư, nếu hai bác sĩ nhìn cùng một bức ảnh X-quang nhưng một người gắn nhãn "khối u", người còn lại gắn nhãn "bình thường", thì AI sẽ không biết ai đúng ai sai.
Hoặc nếu cần tạo ra một module AI phân loại thư rác, thì các kỹ sư phải vạch rõ trước các quy tắc như "thế nào là thư rác", "email quảng cáo từ Shopee có phải thư rác không?", "email gửi hàng loạt của đối tác có phải thư rác không?", "newsletter từ các trang tin mà chủ tài khoản đã đăng ký nhận email thì còn gọi là thư rác không?", "email từ sếp nhưng có đính kèm nội dung marketing thì được xếp vào đâu?", ...
Thí nghiệm "Moral Machine" của Đại học MIT năm 2018 cho thấy người dân đến từ các nền văn hóa khác nhau thường có xu hướng chấp nhận những đánh đổi đạo đức khác nhau. Ảnh: Nature.
Rõ ràng, một khái niệm hệ thống càng rõ ràng, chi tiết, thì AI sẽ càng có cơ sở để định hướng, suy luận và điều hướng trong không gian tri thức một cách chính xác hơn. Nếu không, AI sẽ ưu tiên những câu trả lời có xác xuất cao hơn, không cần biết đúng sai.
Thậm chí, ngay khi AI đã được phát hành, thì các nhãn dữ liệu cũ vẫn liên tục phải được xem lại, vì thế giới luôn thay đổi, hành vi người dùng luôn thay đổi và những định nghĩa "đúng" ngày hôm qua có thể không còn phù hợp ngày hôm nay. Hơn nữa, quy ước đúng-sai của con người rất khác nhau giữa các vùng văn hóa.
Dĩ nhiên, việc làm sạch dữ liệu đầu vào ở bước thứ hai cũng rất quan trọng. Giới công nghệ thường nói "Rác vào, Rác ra" (Garbage in, garbage out), nghĩa là chất lượng của kết quả đầu ra phụ thuộc hoàn toàn vào chất lượng dữ liệu đầu vào. Nếu một tập dữ liệu về hình ảnh con chó có tới 20% nhãn dán là con mèo, thì AI không thể nào phân loại đúng chó-mèo trong các tập hình ảnh mà chúng sẽ gặp sau này.
Một thực thể ở giữa
Nói về việc "hiểu" thế giới, các nhà khoa học đã có nhiều tranh cãi về việc AI có thực sự là kẻ thông thái hay chỉ là một con vẹt biết bắt chước.
Trong một nỗ lực trả lời cho vấn đề này, GS. Martin Schüle công tác tại Viện Khoa học Sự sống Tính toán (Đại học Khoa học Ứng dụng Zurich) và Viện Lịch sử và Triết học Khoa học và Công nghệ (Đại học Paris 1 Panthéon-Sorbonne) đã có bài báo trên arXiv năm 2024 để nói về ngữ nghĩa của các mô hình ngôn ngữ lớn [2]
Schüle tham chiếu đến hai người khổng lồ trong triết học ngôn ngữ là Frege và Russell. Theo hai triết học gia cổ điển này, ý nghĩa của một từ hay một câu được cấu thành từ hai yếu tố chính là "Tham chiếu" (vật thể có thật trong thế giới thực mà từ ngữ đó đại diện) và "Ý niệm" (cách mà trí óc hình dung và liên kết các khái niệm với nhau)
Dựa vào cách cấu trúc bên trong của các mô hình ngôn ngữ lớn, Schüle kết luận rằng AI đang thất bại ở tầng "Tham chiếu", nghĩa là nó chỉ biết các từ mô tả vật thể mà không thể tự mình xem vật thể đó có thật hay không. Đây chính là lý do vì sao AI rất hay bịa chuyện, bởi đối với nó, các từ ngữ chỉ là những con số tính toán phối hợp với nhau. Nó không có khả năng ngó ra thế giới thực để kiểm tra xem điều đó có đúng cấu tạo vật lý hay có thật hay không.
Tuy nhiên, Schüle thấy AI lại thành công rực rỡ ở tầng "Ý niệm". Mặc dù không chạm được vào thế giới thực, các mô hình ngôn ngữ lớn cực kỳ xuất sắc trong việc hiểu mối quan hệ giữa các từ ngữ với nhau nhờ vào một công nghệ gọi là Vector không gian (embeddings). Trong thế giới của AI, mỗi từ được chuyển thành một dãy gồm hàng nghìn con số/tọa độ. Những từ có ý nghĩa gần nhau (như "vua" và "hoàng hậu", "bác sĩ" và "bệnh viện") sẽ nằm gần nhau trong không gian toán học này.
Hệ quả là AI hiểu được ngữ nghĩa cấu trúc của các từ. Nó biết rõ từ "Sao Hôm" và "Sao Mai" có mối liên hệ mật thiết với nhau như thế nào trong văn bản - cả hai đều chỉ Sao Kim nhưng một vào buổi sáng sớm, một vào buổi chiều tối, gắn với đó là hình ảnh so sánh cho sự chia xa, không thể gặp mặt. Nó hiểu luật chơi của ngôn ngữ, biết cách kết hợp các ý niệm để tạo ra các câu văn có logic nội tại cực kỳ chặt chẽ.
Do vậy, bài báo của Martin Schüle đem lại một góc nhìn khá công bằng về năng lực của AI. Nói AI chỉ là cỗ máy thống kê thô sơ là bất công, vì nó đã tự xây dựng được một hệ thống biểu diễn ý niệm vô cùng tinh vi và phức tạp bên trong mạng thần kinh nhân tạo của mình.
Nhưng năng lực ngữ nghĩa đặc biệt này lại có khiếm khuyết. Vì hoàn toàn mất kết nối với thực tại khách quan (AI suy cho cùng giống như một "bộ não trong chiếc hộp") nên sự hiểu biết của nó giống như một người mù bẩm sinh đã nghe kể rất nhiều về màu sắc tuy nhiên bản thân nó chưa từng "nhìn thấy" màu đỏ hay màu xanh.
Bởi vậy, ta có thể hi vọng một lúc nào đó, khi AI khắc phục được nhược điểm này, nó có thể tự phát triển được một cơ chế nhận thức thế giới độc lập để đưa ra được nhiều câu trả lời đúng hơn cho người dùng.
Phong Du tổng hợp
--
Tài liệu tham khảo:
[1] Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025, September 4). Why language models hallucinate. arXiv.org. https://arxiv.org/abs/2509.04664
[2] Schuele, M. (2025, July 7). On the Semantics of Large Language Models. arXiv.org. https://arxiv.org/abs/2507.05448
Đọc thêm: