ChatGPT qua bài kiểm tra Turing chưa thông minh như con người

Một bản thảo nghiên cứu mới đây của hai tác giả Đại học California San Diego đã gây chú ý khi tuyên bố rằng GPT-4.5 của OpenAI “đã vượt qua bài kiểm tra Turing”. Nghe có vẻ như một cột mốc lớn trong hành trình phát triển trí tuệ nhân tạo (AI), nhưng thực tế phức tạp hơn nhiều.

Ảnh: CC BY-SA

Trong nghiên cứu, các tác giả đã thử nghiệm với bốn mô hình ngôn ngữ lớn ELIZA, GPT-4o, LLaMa-3.1-405B và GPT-4.5. Họ mời 284 người tình nguyện viên thẩm vấn, giao cho họ nhiệm vụ trò chuyện với hai “đối tượng” trong vòng 5 phút bằng tin nhắn, sau đó những người này phải đoán xem họ vừa nhắn tin qua lại với người thật hay là chatbot.

Kết quả cho thấy, GPT-4.5 đánh lừa người tham gia thành công trong 73% trường hợp, khiến họ tưởng đang nói chuyện với người thật. LLaMa-3.1 đạt tỉ lệ 56%, trong khi ELIZA và GPT-4o chỉ khiến người tham gia nhầm lẫn lần lượt 23% và 21%.

Mặc dù bài kiểm tra Turing được biết đến như một cách phổ biến để đánh giá trí tuệ của máy móc, nhưng không phải ai cũng tin rằng nó là phương pháp chính xác. Thực tế, bài kiểm tra này thường xuyên bị tranh cãi. Alan Turing, nhà toán học và khoa học máy tính người Anh, đã đề xuất khái niệm này từ năm 1950 để trả lời cho câu hỏi mơ hồ: “Máy móc có thể suy nghĩ không?”. Thay vì cố định nghĩa xem “suy nghĩ” là gì, “thông minh” là gì, ông đề xuất một “trò chơi bắt chước” và tuyên bố đó là một phương tiện để xác định xem máy móc có khả năng thể hiện hành vi thông minh tương đương với con người hay không. Tuy nhiên, qua thời gian, bài kiểm tra này bị đơn giản hóa và hiểu sai là: nếu máy đánh lừa được người, thì nó thông minh như người. Và đây chính là điểm gây tranh cãi.

Các nhà khoa học đã đưa ra bốn phê phán chính đối với bài kiểm tra Turing. Thứ nhất, hành vi khác với suy nghĩ: một cỗ máy có thể tỏ ra như đang suy nghĩ, nhưng không có nghĩa nó đang suy nghĩ thật. Thứ hai, bộ não không phải máy móc: Turing cho rằng bộ não là một cỗ máy, rằng nó có thể được giải thích bằng các thuật ngữ cơ học thuần túy, nhưng nhiều nhà khoa học lại cho rằng nhận thức là hiện tượng phức tạp hơn nhiều và nghi ngờ tính hợp lệ của bài kiểm tra trên cơ sở này. Thứ ba, cách thức xử lý thông tin của con người và máy móc rất khác nhau, nên không thể so sánh trực tiếp được. Thứ tư, phạm vi của bài kiểm tra quá hẹp: trò chuyện chỉ là một khía cạnh nhỏ của trí tuệ, chỉ dựa vào một hành vi như trò chuyện để đánh giá trí thông minh là không đủ.

Vậy GPT-4.5 có thông minh như con người không? Câu trả lời là không hẳn. GPT-4.5 có thể giả vờ là người rất tốt, nhưng không đồng nghĩa với việc nó hiểu hoặc suy nghĩ như con người. Vượt qua bài kiểm tra Turing không chứng minh được AI thông mình “như” con người – nó chỉ cho thấy AI “bắt chước” con người rất khéo mà thôi.

Ngoài ra, thời gian kiểm tra chỉ kéo dài 5 phút – quá ngắn để đánh giá khả năng suy luận dài hạn. Các mô hình còn được “đóng vai nhân vật” cụ thể, nhưng nghiên cứu không nói rõ chi tiết về những nhân cách này và điều đó ảnh hưởng thế nào đến kết quả.

Kết quả của nghiên cứu cũng dẫn đến một câu hỏi đáng lo ngại: phải chăng vấn đề lớn hơn không phải là sự trỗi dậy của máy móc, mà là sự suy thoái của con người? Cameron Jones, đồng tác giả của bài báo, chia sẻ rằng: “Mặc dù con người làm tốt hơn chatbot — trong 2/3 trường hợp, họ đã thuyết phục được những người tham gia tin rằng mình là con người — nhưng trong đời thực, mọi người có thể không phân biệt được rõ ràng liệu mình đang trò chuyện với người thật hay là AI”

Trong thực tế, mọi người có xu hướng ít nghi ngờ hoặc ít để ý đến khả năng mình đang tương tác với một AI, cho nên số người bị AI “giả làm người” đánh lừa mà không hề hay biết có thể còn nhiều hơn nữa. Điều này sẽ ảnh hưởng đến cách mà các hệ thống AI được sử dụng, cho dù là tự động hóa các công việc tiếp xúc với khách hàng, hay bị lợi dụng để lừa đảo hoặc phát tán thông tin sai lệch.

Nghiên cứu trên hiện chưa được bình duyệt và đăng dưới dạng bản thảo trên arXiv.org

Trang Linh dịch từ arXiv.org

Nguồn: [2503.23674] Large Language Models Pass the Turing Test

Tác giả

(Visited 42 times, 42 visits today)