Trí tuệ nhân tạo “hoang tưởng” vì được huấn luyện để đoán bừa khi không biết câu trả lời
Việc dạy các trợ lý ảo (chatbot) nói “tôi không biết” có thể làm giảm sự hoang tưởng của trí tuệ nhân tạo (AI) và phá vỡ các mô hình kinh doanh của AI.

Mới đây, OpenAI đã hoàn thành việc tái cấu trúc bộ phận vì lợi nhuận của mình thành một công ty vì lợi ích cộng đồng – động thái mới nhất trong “cơn lốc” đã thu hút hàng tỷ đô la tiền đầu tư trên toàn cầu vào các công cụ trí tuệ nhân tạo (AI).
Nhưng ngay cả khi công ty AI này – được thành lập dưới hình thức phi lợi nhuận, hiện được định giá 500 tỷ USD – hoàn tất quá trình tái cấu trúc được mong đợi từ lâu, thì một vấn đề dai dẳng trong dịch vụ cốt lõi của họ vẫn chưa được giải quyết: sự ảo giác của công cụ AI. Các mô hình ngôn ngữ lớn (LLM), chẳng hạn như nền tảng ChatGPT phổ biến của OpenAI, vẫn có thể đưa ra những câu trả lời không chính xác. Những lỗi này thường được cho là do dữ liệu đầu vào kém, nhưng trong một bài báo ở dạng tiền xuất bản (preprint) mới đây, một nhóm nghiên cứu từ OpenAI và Viện Công nghệ Georgia đã chứng minh rằng ngay cả với dữ liệu đào tạo hoàn hảo, LLM cũng không bao giờ có thể luôn luôn trả lời chính xác – một phần vì một số câu hỏi vốn dĩ không thể trả lời được.
Tuy nhiên, điều đó không có nghĩa là AI bắt buộc phải “hoang tưởng” ra câu trả lời. Một AI chỉ cần nói ba từ đơn giản “Tôi không biết”. Vậy tại sao chúng lại không nói thế?
Các nhà nghiên cứu cho biết, vấn đề cốt lõi có thể nằm ở cách đào tạo các LLM. Các mô hình này học cách lừa phỉnh vì hiệu suất của chúng được xếp hạng bằng các bộ tiêu chuẩn – những bộ này lại thưởng cho các câu trả lời tự tin, nhưng phạt sự trung thực khi mô hình tỏ ra không chắc chắn. Để giải quyết vấn đề này, nhóm nghiên cứu kêu gọi phải cải tổ hệ thống đánh giá sao cho độ chính xác và tự nhận thức của AI cũng quan trọng ngang sự tự tin khi đưa ra câu trả lời.
Mặc dù một số chuyên gia cho rằng bài báo khá thuyết phục về mặt kỹ thuật, nhưng họ lại có những phản ứng khác nhau đối với các giải pháp được đề xuất. Một số người thậm chí còn nghi hoặc liệu OpenAI có sẵn sàng áp dụng phương pháp huấn luyện mô hình ưu tiên tính trung thực hơn là khả năng thu hút người dùng. Bởi thực tế là nếu ChatGPT thừa nhận “Tôi không biết” quá thường xuyên, người dùng sẽ tìm kiếm câu trả lời ở nơi khác. Điều này có thể là một vấn đề nghiêm trọng đối với một công ty vẫn đang cố gắng phát triển cơ sở người dùng và đạt được lợi nhuận. “Việc khắc phục sự hoang tưởng của AI sẽ giết chết sản phẩm”, Wei Xing – nhà nghiên cứu AI tại Đại học Sheffield – cho biết.
Sự ảo giác của AI bắt đầu trong quá trình được gọi là tiền huấn luyện – thời điểm mà mô hình đầu tiên tiếp nhận một lượng lớn văn bản và bắt đầu học cách dự đoán từ tiếp theo trong một chuỗi theo phương pháp thống kê. Mô hình giai đoạn đầu này có thể xử lý dễ dàng các mẫu đơn giản như ngữ pháp hoặc chính tả, nhưng nó vẫn có thể sai khi được yêu cầu trả lời các câu hỏi khó.
Trong quá trình hậu huấn luyện – một giai đoạn sau đó khi phản hồi của con người và các phương pháp tinh chỉnh khác điều khiển mô hình để chúng trở nên an toàn và chính xác hơn, câu trả lời của mô hình được đánh giá bằng các chuẩn mực – các bài kiểm tra tiêu chuẩn đánh giá mức độ hiệu quả của các mô hình trong việc trả lời hàng ngàn câu hỏi.
Điểm cao đồng nghĩa với uy tín và thành công thương mại, vì vậy các công ty thường điều chỉnh chương trình hậu huấn luyện để tối đa hóa điểm chuẩn. Tuy nhiên, chín trong số 10 bộ tiêu chuẩn phổ biến nhất mà các nhà nghiên cứu phân tích đều chấm điểm câu trả lời đúng là 1 và câu trả lời trống hoặc sai là 0. Vì các khung chuẩn mực này không phạt những câu trả lời sai nặng hơn so với những câu trả lời trống, nên một mô hình “giả vờ cho đến khi thành sự thật” hầu như luôn trông có vẻ hiệu quả hơn một mô hình thận trọng thừa nhận “tôi không biết”.□
Kim Dung lược dịch
Nguồn: https://www.science.org/content/article/ai-hallucinates-because-it-s-trained-fake-answers-it-doesn-t-know
Bài đăng Tia Sáng số 21/2025
