Tấm bản đồ nội tại cho AI bước ra đời thực
Đầu năm nay, dự án GENIE của Google đã khiến cả thế giới sửng sốt. Chỉ từ một bức ảnh hoặc một đoạn mô tả ngắn, công cụ này có thể tạo ra cả một thế giới ảo để người dùng bước vào và tương tác. Nói đơn giản, bạn chỉ cần nhập một câu lệnh, AI sẽ dựng nên một môi trường mô phỏng như thật. Thậm chí, nếu đưa cho GENIE một tấm hình, nó có thể biến tấm hình ấy thành không gian 3D sống động để bạn tự do khám phá.
Nghe thì giống như trò chơi điện tử, nhưng các chuyên gia lại hướng tới một mục tiêu tham vọng hơn. Họ gọi nó là "mô hình thế giới" (world model) - một nền tảng quan trọng giúp AI hiểu và diễn giải những không gian vật lý phức tạp, khó dự đoán, nơi trong tương lai nhiều hệ thống AI sẽ được đưa vào hoạt động. Nếu không có mô hình thế giới, sẽ không có viễn cảnh robot giúp việc đi chợ, nấu ăn hay xe tự lái vận hành hoàn hảo trên mọi cung đường.
GENIE có thể tạo ra cả một thế giới ảo để người dùng bước vào và tương tác. Ảnh: Google
Ý tưởng về "mô hình thế giới" không mới. Năm 1943, nhà tâm lý học Scotland Kenneth Craik đã nhắc đến nó trong cuốn The Nature of Explanation. Ông cho rằng mọi sinh vật sống đều giữ trong đầu một "mô hình thu nhỏ" của thế giới để thử trước các khả năng rồi mới hành động. Hiểu được thế giới hoạt động ra sao là bước cần thiết trước khi muốn tác động lên nó. Nếu không có bước này, mọi hành vi chỉ còn là phản xạ đơn giản, như đói thì ăn, khát thì uống, và dừng ở đó.
Xây dựng mô hình thế giới từng là một lĩnh vực tiềm năng từ những năm 1990, trước khi các mô hình ngôn ngữ lớn (LLM) giành hết sự chú ý của chúng ta. Gần đây, các mô hình thế giới được quan tâm trở lại với ba hướng tiếp cận chủ đạo: công cụ sinh video AI, trí tuệ không gian, và tư duy logic kết hợp dự đoán.
Một số nhà nghiên cứu cho rằng cách tốt nhất để dạy AI về thế giới là thông qua video. Để tạo ra một video mạch lạc, AI cần phải hiểu các quy tắc vật lý, bởi nếu các quy tắc này thay đổi giữa chừng, kết quả trả về sẽ thành vô nghĩa. Những mô hình sơ khai hiện nay đã có thể tự động "điền vào chỗ trống"; ví dụ, nếu cho AI xem bức ảnh đôi tay cầm chiếc lọ, nó sẽ mô phỏng chính xác động tác xoay nắp để mở.
Dự án GENIE của Google chính là đỉnh cao của phương pháp này. Thay vì phải thu thập dữ liệu từ thế giới thực - một việc hết sức tốn kém thời gian và tiền của - các công cụ sinh video sẽ tạo ra một "phòng tập" ảo rộng lớn để các công cụ AI luyện tập và phát triển kỹ năng trước khi ứng dụng vào thực tế.
Tuy nhiên, ngay cả video thật nhất cũng không thể tái tạo chính xác thế giới như cách con người cảm nhận. Thế giới mà chúng ta trải nghiệm không chỉ bao gồm hình ảnh và âm thanh trong video, mà còn nhiều yếu tố quan trọng khác - mùi vị, nguyên nhân ẩn, đồ vật bị che khuất - và những yếu tố nằm ngoài khung hình này không được các công cụ AI nhận thức. Vì vậy, nhược điểm của phương pháp dạy AI về thế giới thông qua video sẽ lộ rõ khi cần mô phỏng các môi trường phức tạp hoặc khi nhiều người cùng tương tác trong một mô hình.
Một cách tiếp cận khác để xây dựng mô hình thế giới là tạo ra một không gian 3D hoàn chỉnh thay vì mô phỏng 2D như trong video. Fei-Fei Li (Lý Phi Phi), đồng chủ nhân của Giải thưởng Chính VinFuture 2024 và giáo sư khoa học máy tính tại Đại học Stanford, đang theo đuổi phương pháp này và gọi nó là trí tuệ không gian (spatial intelligence).
Theo bà, các mô hình thế giới cần đáp ứng ba tiêu chí: có thể tương tác qua lại với người dùng hoặc AI khác; hiểu nhiều loại dữ liệu khác nhau; hoạt động nhất quán và ổn định. Các hệ thống dựa trên video có thể vượt qua hai yêu cầu đầu tiên, nhưng lại gặp khó khăn với yêu cầu về tính nhất quán. Ví dụ, dự án Genie chỉ hoạt động ổn định trong vòng 60 giây, sau đó các mô phỏng của nó bắt đầu hỗn loạn.
Công ty khởi nghiệp của TS Fei-Fei Li, World Labs, đã phát triển một mô hình thế giới tên gọi Marble, có thể tạo ra các phiên bản kỹ thuật số 3D hoàn chỉnh và nhất quán của các không gian; nghĩa là, nhiều người có thể cùng vào tương tác trong môi trường ảo đó và các vật thể trong môi trường ảo đó không tự nhiên biến mất hoặc thay đổi vị trí. World Labs đang giới thiệu sản phẩm của mình đến các kiến trúc sư, để họ có thể hình dung và đi dạo trong tòa nhà họ thiết kế trước khi bắt tay vào xây dựng.
Trong khi đó, Yann LeCun - nhà khoa học AI nổi tiếng thế giới, cựu giám đốc AI của Meta, một đồng chủ nhân khác của Giải thưởng Chính VinFuture 2024 - lại có cách nhìn khác về world model. Ông cho rằng không nhất thiết phải tập trung vào việc mô phỏng thế giới vật lý như nhà cửa, đường phố hay cửa hàng. Theo ông, trong thực tế, nhiều hệ thống AI không làm việc trong không gian vật lý mà phải "điều hướng" trong những môi trường kỹ thuật số phức tạp, như hệ thống quản lý nhân sự của công ty hoặc các bộ tài liệu pháp lý dài và rối rắm. Những hệ thống này có nhiều bước, nhiều lựa chọn và nhiều mối liên hệ giữa các phần, giống như một "mê cung" mà AI cần tìm đường đi đúng để hoàn thành nhiệm vụ.
Vì vậy, LeCun cho rằng điều quan trọng là giúp AI có khả năng xây dựng mô hình thế giới cho cả hai loại môi trường: thế giới thật và thế giới số. Khi đó, AI có thể hiểu cấu trúc của môi trường mình đang làm việc và biết nên thực hiện bước tiếp theo như thế nào.
Theo hình dung của ông, mô hình ngôn ngữ lớn (LLM) có thể đóng vai trò "bộ não", dùng ngôn ngữ để hiểu yêu cầu của con người và tương tác với mô hình thế giới. Nhờ vậy, AI có thể thực hiện nhiều nhiệm vụ khác nhau, từ điều khiển robot trong thế giới thật cho đến xử lý công việc trên máy tính. Hướng tiếp cận này có tên là Joint-Embedding Predictive Architecture (JEPA).
Nếu đưa cho GENIE một bức tranh, nó có thể biến bức tranh ấy thành không gian 3D sống động để bạn tự do khám phá. Ảnh: Google
TS LeCun khởi xướng hệ thống JEPA từ năm 2022, và ông rời Meta vào tháng 11 năm ngoái để tập trung hoàn toàn cho dự án này với công ty khởi nghiệp riêng có tên Advanced Machine Intelligence. Khách hàng đầu tiên của công ty là Nabla, một startup trong lĩnh vực medtech.
Hiện nay, các mô hình thế giới thường tập trung vào những gì sẽ xảy ra ngay tức khắc, trong khi con người thường suy nghĩ xa hơn - chúng ta kiểm tra thời tiết trước quyết định có mang ô khi ra khỏi nhà hay không, cân nhắc nguy cơ đi làm muộn khi chọn phương tiện và lộ trình di chuyển. Quan trọng hơn, những quyết định này có thể được đưa ra nhanh chóng nhờ khả năng suy luận, dự đoán thay vì phải hình dung chi tiết từng giây. Các mô hình thế giới hiện tại chưa có "lối tắt" như vậy.
TS LeCun cho biết mục tiêu của JEPA là tạo ra một hệ thống sử dụng mô hình thế giới của riêng nó để xác định "chuỗi hành động tối ưu giúp hoàn thành nhiệm vụ được giao."
Sự cồng kềnh không cần thiết của các phương pháp mới?
Nhưng liệu những cách tiếp cận phức tạp nêu trên có thực sự cần thiết? Nếu các hệ thống AI tạo sinh hiện nay đã có thể làm được nhiều việc hữu ích trong thế giới thực, thì có lẽ chúng đã chứa một dạng mô hình thế giới nào đó bên trong.
Đó là quan điểm của Ilya Sutskever, cựu kỹ sư trưởng của OpenAI. Ông từng chia sẻ vào năm 2023 rằng, việc huấn luyện một mô hình ngôn ngữ lớn thực chất là "học một mô hình thế giới". Ông lý giải, việc nén toàn bộ thông tin từ Internet xuống chỉ còn vài trăm gigabyte chỉ có thể xảy ra khi hệ thống học được các nguyên lý nền tảng đằng sau những thông tin đó.
Có một số bằng chứng cho thấy Sutskever có lý. Năm 2023, các nhà nghiên cứu phát hiện một mô hình ngôn ngữ chỉ được huấn luyện bằng danh sách các nước đi trong trò chơi Othello đã tự hình thành một "hình dung" về trạng thái của bàn cờ bên trong mạng neuron của nó. Đáng chú ý là mô hình chưa từng được cung cấp hình ảnh bàn cờ Othello hay được dạy luật chơi.
"Hình dung" này chi tiết đến mức các nhà nghiên cứu có thể xác định những phần cụ thể trong mạng neuron lưu trữ màu của từng quân cờ. Điều đó đồng nghĩa với việc họ có thể điều chỉnh trực tiếp những phần neuron nhất định để thay đổi "nhận thức" của mô hình về ván cờ, một mức độ kiểm soát chưa từng có đối với các phép tính bên trong của một mô hình ngôn ngữ lớn.
Nhiều khả năng các mô hình ngôn ngữ lớn hơn còn chứa những mô hình thế giới phức tạp hơn bên trong. Anthropic, một công ty AI nổi tiếng, trong khi nghiên cứu cách các mô hình Claude ra quyết định, đã phát hiện các cụm neuron nhân tạo tương ứng với các khái niệm cụ thể, từ cảm giác tội lỗi của con người cho đến các địa danh nổi tiếng như cầu Cổng Vàng ở San Francisco.
Khi các nhà nghiên cứu can thiệp vào những cụm neuron này, giống như trong ví dụ Othello, hành vi của mô hình AI cũng thay đổi theo. Điều này cho thấy các mô hình ngôn ngữ lớn không chỉ đơn giản ghép các từ lại với nhau, mà chúng có cách hiểu nhất quán về các đặc điểm vật lý của thế giới, và sử dụng cách hiểu đó để đưa ra câu trả lời. Điều này nghe khá giống những gì người ta mong đợi ở một mô hình thế giới nội tại.
Tuy nhiên, không phải ai cũng đồng ý với luận điểm trên. Tiến sĩ Fei-Fei Li cho rằng các mô hình ngôn ngữ lớn chỉ là những "người thợ chữ trong màn đêm". Theo bà, việc có thể dùng ngôn ngữ để mô tả thế giới không có nghĩa là các mô hình ngôn ngữ lớn thực sự hiểu nó. Giống như một sinh viên chỉ đọc về một đất nước xa lạ qua sách vở thì sẽ luôn có những mảnh kiến thức thực tế mà con chữ không thể lấp đầy, bà nói.
Dù chưa rõ phương pháp nào trong số nói trên sẽ hiệu quả hơn, có một điều gần như chắc chắn: AI sắp bước ra khỏi màn hình máy tính và tương tác trực tiếp với thế giới thực.
Việt Anh tổng hợp
---
Nguồn tham khảo:
AI tools are being prepared for the physical world. The Economist.
https://www.economist.com/science-and-technology/2026/02/25/ai-tools-are-being-prepared-for-the-physical-world
The next AI revolution could start with world models. Scientific American.
https://www.scientificamerican.com/article/world-models-could-unlock-the-next-revolution-in-artificial-intelligence/
‘World Models,’ an Old Idea in AI, Mount a Comeback. Quanta Magazine.
https://www.quantamagazine.org/world-models-an-old-idea-in-ai-mount-a-comeback-20250902/