Bài kiểm tra cuối cùng của nhân loại
Khi các hệ thống trí tuệ nhân tạo bắt đầu vượt qua các bài kiểm tra truyền thống một cách xuất sắc, các nhà nghiên cứu nhận ra rằng những bài kiểm tra từng là thách thức đối với máy móc giờ đây không còn đủ khó nữa.
Những bài đánh giá nổi tiếng, chẳng hạn bài kiểm tra Hiểu ngôn ngữ đa nhiệm quy mô lớn (MMLU), trước đây vốn được xem là rất "khó nhằn", nay không còn phù hợp để đánh giá chính xác năng lực thực sự của các mô hình AI tiên tiến. MMLU là bộ câu hỏi trắc nghiệm ở 57 lĩnh vực, dùng để kiểm tra kiến thức, khả năng suy luận của AI và để so sánh sức mạnh các mô hình AI.
Việc đạt điểm cao trong các bài kiểm tra vốn thiết kế cho con người không có nghĩa là AI thật sự thông minh. Thiết kế: Mỹ Hạnh/ Tia Sáng
Để giải quyết vấn đề này, một nhóm gồm gần 1.000 nhà nghiên cứu trên toàn cầu đã phát triển một dạng bài kiểm tra hoàn toàn mới, dựa trên tri thức chuyên sâu của con người - những lĩnh vực mà AI hiện vẫn gặp nhiều hạn chế.
Kết quả là "Bài kiểm tra cuối cùng của nhân loại" (Humanity’s Last Exam - HLE) ra đời, gồm 2.500 câu hỏi toán học, khoa học xã hội - nhân văn, khoa học tự nhiên, ngôn ngữ cổ và nhiều lĩnh vực học thuật chuyên biệt khác.
Trong số các cộng tác viên tham gia xây dựng bài kiểm tra có TS Nguyễn Thanh Tùng - giảng viên tại Khoa Khoa học Máy tính và Kỹ thuật của Đại học Texas A&M (Mỹ). Ông đã đóng góp 73 trong số 2.500 câu hỏi được công bố trong HLE - con số cao thứ hai trong số các cộng tác viên - đồng thời là người viết nhiều câu hỏi nhất trong lĩnh vực toán học và khoa học máy tính.
"Khi các hệ thống AI bắt đầu thể hiện rất tốt trong những bài kiểm tra dành cho con người, chúng ta dễ có suy nghĩ rằng AI đang tiến gần tới mức hiểu biết của con người," TS Nguyễn Thanh Tùng nói. "Nhưng HLE nhắc nhở chúng ta rằng trí thông minh không đơn thuần là nhận ra mẫu hay quy luật, nó còn là hiểu sâu, đặt trong đúng bối cảnh và có kiến thức chuyên môn thực sự."
Bởi vậy, mục đích của HLE là nhằm xác định rõ ràng những lĩnh vực mà các hệ thống AI vẫn còn nhiều hạn chế.
Thiết kế độc đáo
Các chuyên gia từ khắp nơi trên thế giới đã tham gia soạn thảo và thẩm định những câu hỏi trong "Bài kiểm tra cuối cùng của nhân loại". Mỗi câu hỏi đều được thiết kế nghiêm cẩn để chỉ có một đáp án rõ ràng và có thể kiểm chứng. Đồng thời, các câu hỏi cũng được xây dựng nhằm tránh việc có thể giải nhanh chỉ bằng cách tìm kiếm đơn giản trên Internet.
Nội dung của các câu hỏi xuất phát từ những thách thức học thuật ở trình độ cao. Một số câu yêu cầu dịch các văn bản khắc bằng tiếng Palmyrene cổ, một số câu khác lại đòi hỏi nhận diện các cấu trúc giải phẫu cực nhỏ ở chim, hoặc phân tích các đặc điểm tinh vi trong cách phát âm tiếng Hebrew (tiếng Do Thái) cổ được dùng để viết phần lớn nội dung của Kinh Thánh.
Một câu hỏi mẫu từ bài kiểm tra cuối cùng của nhân loại: "Đây là bản tái hiện của một dòng khắc La Mã, ban đầu được tìm thấy trên một bia mộ. Hãy dịch dòng chữ tiếng Palmyrene. Một bản chuyển tự của văn bản là: RGYNʾ BT ḤRY BR TDMR". Ảnh: lastexam.ai
Sau khi có bộ câu hỏi, các nhà nghiên cứu đã kiểm tra từng câu hỏi với các hệ thống AI hàng đầu. Nếu mô hình nào có thể trả lời đúng một câu bất kỳ, câu hỏi đó sẽ bị loại khỏi bài kiểm tra HLE. Quy trình này nhằm bảo đảm HLE luôn nằm ngoài khả năng xử lý của các hệ thống AI hiện có.
Kết quả thử nghiệm ban đầu cho thấy chiến lược này có hiệu quả: ngay cả những mô hình AI "thiện chiến" nhất cũng gặp nhiều khó khăn với HLE. Cụ thể, GPT-4o chỉ đạt 2,7% số điểm tối đa; còn Claude 3.5 Sonnet đạt 4,1%. Mô hình OpenAI o1 có kết quả tốt hơn một chút với 8%. Những hệ thống tiên tiến nhất hiện nay - gồm Gemini 3.1 Pro và Claude Opus 4.6 - đạt trong khoảng từ 40% đến 50%.
Vì sao cần những chuẩn đánh giá AI mới?
TS Nguyễn Thanh Tùng cho rằng, việc AI vượt qua các bài kiểm tra trước đây không chỉ là chuyện kỹ thuật.
"Nếu thiếu công cụ đánh giá chính xác, các nhà hoạch định chính sách, nhà phát triển và người dùng có nguy cơ hiểu sai về những gì hệ thống AI thực sự có thể làm được," TS Nguyễn Thanh Tùng nói. "Các chuẩn đánh giá [benchmark] chính là nền tảng để đo lường tiến bộ và nhận diện rủi ro."
Theo nhóm nghiên cứu, việc đạt điểm cao trong các bài kiểm tra vốn thiết kế cho con người không có nghĩa là AI thật sự thông minh. Lý do là bởi, những bài này chủ yếu đo xem AI làm tốt các dạng bài cụ thể đến đâu, chứ chưa phản ánh khả năng hiểu sâu vấn đề.
Dù có cái tên khá kịch tính, "Bài kiểm tra cuối cùng của nhân loại" không nhằm ám chỉ rằng con người đang trở nên "lỗi thời". Ngược lại, nó nhấn mạnh, con người vẫn sở hữu một khối lượng lớn tri thức và chuyên môn mang tính độc nhất mà AI chưa thể so được.
"Đây không phải là một cuộc đua với AI," TS Nguyễn Thanh Tùng nói. "Đây là cách để hiểu rõ những điểm mạnh và điểm yếu của các hệ thống AI này. Hiểu biết đó sẽ giúp chúng ta xây dựng những công nghệ an toàn và đáng tin cậy hơn. Và quan trọng là, nó nhắc chúng ta nhớ vì sao chuyên môn của con người vẫn còn rất quan trọng".
Giá trị của hợp tác xuyên ngành và xuyên quốc gia
"Bài kiểm tra cuối cùng của nhân loại" được thiết kế để trở thành một chuẩn đánh giá bền vững và minh bạch cho các hệ thống AI trong tương lai. Các nhà nghiên cứu đã công bố một phần câu hỏi trên tạp chí Nature, và thông tin bổ sung có thể tìm thấy tại lastexam.ai. Tuy nhiên, phần lớn nội dung còn lại vẫn được giữ kín để các mô hình AI không thể ghi nhớ câu trả lời.
"Hiện tại, ‘Bài kiểm tra cuối cùng của nhân loại’ là một trong những thước đo rõ ràng nhất về khoảng cách giữa trí tuệ nhân tạo và trí tuệ con người", TS Nguyễn Thanh Tùng cho biết, "và dù công nghệ đang tiến bộ rất nhanh, khoảng cách đó vẫn còn lớn".
Ông cũng nhấn mạnh, quy mô của dự án cho thấy giá trị của sự hợp tác xuyên ngành và xuyên quốc gia.
"Điều khiến dự án này trở nên đặc biệt chính là quy mô rất lớn của dự án," TS Nguyễn Thanh Tùng nói. "Các chuyên gia từ hầu hết mọi lĩnh vực đều tham gia. Không chỉ có dân công nghệ như nhà khoa học máy tính mà còn có sử gia, nhà vật lý, nhà ngôn ngữ học, nhà nghiên cứu y học. Chính sự đa dạng đó đã làm lộ ra những điểm yếu của AI hiện nay, và trớ trêu là những điểm yếu ấy bộc lộ nhờ con người hợp tác với nhau."
Mỹ Hạnh dịch
---
Nguồn:
Don’t Panic: ‘Humanity’s Last Exam’ has begun, Texas A&M University, https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/
A benchmark of expert-level academic questions to assess AI capabilities, Nature, https://www.nature.com/articles/s41586-025-09962-4