AI hiểu được bao nhiêu về thế giới thực?

Các hệ thống trí tuệ nhân tạo (AI) hiện nay dường như còn thiếu một khía cạnh thiết yếu của trí tuệ loài người: các mô phỏng nội tại phong phú về thế giới.

Các hệ thống trí tuệ nhân tạo (AI) hiện nay dường như còn thiếu một khía cạnh thiết yếu của trí tuệ loài người: các mô phỏng nội tại phong phú về thế giới.

Trí tuệ nhân tạo vẫn gặp khó khăn để hiểu được thế giới phức tạp của con người. Một người dùng tính năng tự lái trên xe điện Tesla đã than phiền trên Twitter rằng xe của mình cứ dừng đột ngột tại một địa điểm cụ thể mà không có lý do rõ ràng. Sau đó anh phát hiện một bảng quảng cáo bên đường có in hình một viên cảnh sát đang giơ biển báo dừng, khiến hệ thống nhận thức của xe điện kích hoạt phanh. Sai sót thường thấy là các ứng dụng AI không hiểu ngữ cảnh: mạng máy tính thị giác của nó bị lỗi khi xuất hiện vật thể trong điều kiện bất thường; phần mềm phiên dịch ngôn ngữ hiểu sai ý nghĩa trong các tình huống nguy hiểm; các hệ thống chẩn đoán y khoa hiểu sai những điều nên học từ dữ liệu được dùng để huấn luyện… Rõ ràng, AI bắt buộc phải đạt đến mức độ hiểu biết sâu sắc đối với thế giới thực của con người thì mới trở nên hữu ích, đáng tin cậy, minh bạch, và an toàn trong mọi ngóc ngách của đời sống. 

Một số nhà phát triển AI đã tuyên bố về năng lực vượt trội của các mô hình ngôn ngữ lớn LLM và rằng các hệ thống “AI tạo sinh” cuối cùng đã vượt qua rào cản hiểu biết, và rằng chúng ta đã chứng kiến sự xuất hiện của AI giống người. Cuối cùng, chúng sẽ thể hiện năng lực trò chuyện bằng ngôn ngữ tự nhiên, tạo hình ảnh từ lời mô tả của chúng ta, viết code có thể chạy được, thậm chí đậu các bài kiểm tra đã được chuẩn hóa để đánh giá khả năng suy luận của con người.

Tuy nhiên, các mô hình ngôn ngữ lớn LLM thực sự hiểu được bao nhiêu về thế giới thực? 

Các nhà nghiên cứu nghi ngờ về LLM và đã dự đoán chúng sẽ không bao giờ đạt đến trí thông minh của con người, thậm chí đến khi vũ trụ diệt vong. Một số nhà nghiên cứu phân tích rằng hành vi của AI sử dụng mô hình ngôn ngữ lớn LLM không hình thành từ sự nắm bắt, hiểu được ý nghĩa ngôn ngữ mà từ việc học một cách máy móc cách sắp xếp từ ngữ, các liên kết thống kê phức tạp giữa các từ và cụm từ của dữ liệu ngôn ngữ được dùng để huấn luyện, và sau đó “truy xuất gần đúng” các mẫu này để trả lời các truy vấn của người dùng. Một số nghiên cứu gần đây nghi ngờ về năng lực khái quát và trừu tượng của LLM, cho thấy chúng không đáng tin cậy để giải quyết vấn đề hay xử lý các tình huống khác biệt so với khi huấn luyện. Chúng có xu hướng tạo ra các câu trả lời mơ hồ, dễ phản bác, cho thấy sự thiếu căn cứ, thiếu hiểu biết vào thế giới thực, không thể hiểu dụng ý đằng sau của các yêu cầu từ người dùng. 

Các hệ thống AI hiện nay dường như còn thiếu một khía cạnh thiết yếu của trí tuệ loài người: các mô phỏng nội tại phong phú về thế giới. Con người không chỉ là một cỗ máy phản xạ có điều kiện đơn giản, mà bộ não của chúng ta có thể tạo ra những mô hình trừu tượng về thế giới vật chất và xã hội, thể hiện nguyên nhân của sự kiện chứ không đơn thuần chỉ ra mối tương quan giữa chúng. Các mô hình tư duy này mô phỏng và dự đoán các hệ quả khả dĩ của các hành động có thể xảy ra, để suy luận và lập kế hoạch cho những tình huống xa lạ, tưởng tượng ra các tình huống bất lợi, và dựa vào các trải nghiệm thực tế để cập nhật kiến thức và niềm tin. Mô hình tư duy của chúng ta không chỉ về thế giới bên ngoài, về người khác, mà còn về chính bản thân chúng ta, để đánh giá, giải thích sự suy luận và ra quyết định. Quá trình này trong bộ não của con người vẫn chưa được hiểu rõ. Các mô hình về thế giới là trọng tâm nghiên cứu về AI trong nhiều thập kỷ qua, từ lập trình thủ công các mô hình cho đến cố gắng tạo ra khả năng học máy từ dữ liệu hoặc kinh nghiệm. Hiện tại, chúng ta chỉ thành công với các trò chơi điện tử và các nhiệm vụ điều khiển robot, với các mô hình thế giới được đơn giản hóa. Các hệ thống LLM và “AI tạo sinh” vận hành theo cách thức khác. Không cần một mô hình thế giới nào cả, chúng được huấn luyện bằng các chuỗi token (một phần hình ảnh hoặc từ) để dự đoán token tiếp theo trong chuỗi. Trải qua huấn luyện với hàng nghìn tỷ token từ các văn bản và hình ảnh số hoá, dường như các mô hình này đã nắm bắt được một số khía cạnh cơ bản của thế giới và xã hội con người, ít nhất là theo tuyên bố của một số người trong cộng đồng AI.

AI bắt buộc phải đạt đến mức độ hiểu biết sâu sắc đối với thế giới thực của con người thì mới trở nên hữu ích, đáng tin cậy, minh bạch, và an toàn trong mọi ngóc ngách của đời sống. 

Ilya Sutskever, đồng sáng lập kiêm khoa học gia là kiến trúc sư trưởng của OpenAI, công ty tạo ra ứng dụng ChatGPT, cho biết đã huấn luyện một mạng lưới thần kinh lớn để dự đoán chính xác từ tiếp theo trong nhiều văn bản khác nhau. Các văn bản này phản ánh cho thế giới thực, và mạng lưới thần kinh vẫn đang học hỏi không ngừng để nắm bắt các khía cạnh khác nhau về thế giới, các tình trạng của con người, hy vọng, ước mơ, động lực,… Mạng thần kinh học những biểu hiện ở dạng cô đọng và có thể áp dụng được. Có bằng chứng nào cho quan điểm như trên hay không? Một nghiên cứu tìm hiểu liệu một mô hình ngôn ngữ có thể âm thầm học được một mô hình thế giới trong cờ Othello 8×8 hay không. Trò chơi này có thể được mô tả bằng cách liệt kê trình tự các nước đi theo vị trí được quy ước bằng chữ cái alphabet (hàng ) và chữ số 1-8 (cột). Ví dụ F5, D8,… Các nhà nghiên cứu đã tạo ra 20 triệu chuỗi như thế, mỗi chuỗi là một phần của ván cờ. Không có sẵn kinh nghiệm hoặc chiến lược về môn cờ này; mỗi phần tử trong chuỗi là một nước đi hợp lệ được chọn ngẫu nhiên, bắt nguồn từ các nước đi trước đó. Các chuỗi này sau đó được dùng để huấn luyện cho mạng lưới thần kinh OthelloGPT không được nạp sẵn kiến thức quy tắc của trò chơi hoặc cả các chuỗi đầu vào. OthelloGPT chỉ được nhìn thấy các chuỗi token văn bản là F5, F6,… và phải dự đoán được token nào xuất hiện tiếp theo của một chuỗi cho trước. Sau quá trình huấn luyện, Othello GPT có thể dự đoán chính xác token đại diện cho nước đi hợp lệ tiếp theo trong ván cờ, kể cả khi token này chưa từng xuất hiện trong dữ liệu dùng để huấn luyện. Làm thế nào mà nó làm được như thế? Nhờ tương quan thống kê giữa các token, hay tự thân nó đã học được đúng như tuyên bố của Ilya Sutskever về các mô hình cô đọng và có thể áp dụng được về thế giới – như bàn cờ, quân cờ, người chơi, luật chơi?

Các nhà nghiên cứu đã tạo ra “máy thăm dò” để xem OthelloGPT đã tự học được những gì. Máy thăm dò là một mạng lưới thần kinh đơn giản hơn, để giải mã các hoạt động nội bộ trong mạng lưới thần kinh OthelloGPT, ví dụ như sự kích hoạt các neuron trong lớp nội tại của OthelloGPT nhằm phản hồi với token đầu vào bằng các token đầu ra. Kết quả cho thấy, các kích hoạt nội bộ của OthelloGPT thực sự có thể dự đoán vị trí các quân cờ tại những thời điểm cụ thể trong ván cờ. Nó thậm chí đã mã hóa được thế trận trên bàn cờ – một “mô hình thế giới” đơn giản – để dự đoán các token đại diện cho nước đi hợp lệ kế tiếp. Các nhóm nghiên cứu khác cũng tìm thấy kết quả tương tự, chứng minh quá trình huấn luyện ngôn ngữ sẽ gây ra tác dụng phụ là nó sẽ tự học được “mô hình thế giới”, ngầm tự mã hóa các khái niệm về không gian màu, hướng không gian và thế trận trong các trò chơi đơn giản từ ký tự văn bản. Tuy nhiên, vẫn còn khoảng cách xa giữa những kết quả đơn giản này so với tuyên bố hùng hồn của Sutskever rằng ChatGPT chỉ từ việc huấn luyện bằng hàng nghìn tỷ chuỗi token văn bản mà đã tự học được một mô hình vô cùng phức tạp của xã hội loài người. Khác hoàn toàn so với OthelloGPT chỉ mã hóa và suy luận thế trận và các nước đi trong ván cờ, một mô hình phức tạp về thế giới loài người cần phải mã hóa các quy tắc của trò chơi, và có năng lực suy luận các chiến lược phản ứng với những động thái khác so với quá trình huấn luyện, thậm chí phải linh hoạt thích ứng với các biến thể mới của trò chơi. Mô hình đó phải giải thích được tri thức của nó và sự ra quyết định của người khác. Và hiện tại AI vẫn chưa bắt kịp được trí tuệ của con người. Một câu hỏi là liệu các mô hình học máy hiện nay có đem lại những hiểu biết cần thiết về tính tin cậy của AI trong thế giới thực hay không? Liệu có cần thiết phải phát triển các mô hình mới hơn, như kết hợp mô hình ngôn ngữ với Symbolic AI, hợp nhất các ý tưởng từ học tăng cường, tạo ra kiến trúc nhận thức tích hợp, hoặc bao hàm Embodied AI. Các hệ thống AI đang xuất hiện khắp nơi, và chúng ta phải đối mặt với hai thách thức mang tính nguyên tắc: khiến chúng nắm bắt được thế giới một cách hữu ích và trang bị cho chúng ta các công cụ để hiểu cách chúng thực hiện điều đó.□

Cao Hồng Chiếndịch 

Nguồn: https://www.science.org/doi/10.1126/science.adm8175

Tác giả