AI đã giống người đến mức nào?
Các mô hình ngôn ngữ lớn như phiên bản o1 của OpenAI đã làm dấy lên cuộc tranh luận về trí tuệ nhân tạo tổng quát - AGI. Nhưng rất khó để chúng tự đạt đến trình độ đó.

Hệ thống AI mới nhất của OpenAI được tung ra vào tháng 9/2024 đi kèm với một hứa hẹn táo bạo. Công ty đứng sau ChatGPT tuyên bố o1 – mô hình ngôn ngữ lớn (LLM) mới nhất của họ sẽ đưa “khả năng của AI lên một tầm cao mới”. Họ cho rằng hoạt động của o1 giống với cách con người suy nghĩ hơn so với các LLM trước đó.
Việc phát hành o1 càng đổ thêm dầu cho những cuộc tranh cãi đã âm ỉ nhiều thập kỷ: còn bao lâu nữa sẽ xuất hiện một cỗ máy có thể thực hiện tất cả những hoạt động nhận thức như não người, bao gồm biết tổng quát kinh nghiệm từ việc này để làm việc khác, lập luận trừu tượng, lập kế hoạch và tìm ra được một khía cạnh đời sống để tiếp tục đào sâu và học hỏi thêm?
Một “trí tuệ nhân tạo tổng quát”, hay AGI, như vậy có thể giải quyết được những vấn đề gai góc, chẳng hạn biến đổi khí hậu, dịch bệnh, chữa trị được ung thư, Alzheimer và nhiều bệnh khác. Nhưng một quyền năng lớn như vậy cũng đi kèm sự bất trắc và là mối đe dọa cho nhân loại. “Những điều tồi tệ có thể xảy ra do AI bị lạm dụng, hoặc do chúng ta không còn kiểm soát được nó,” Yoshua Bengio, nhà khoa học nghiên cứu về học sâu tại Đại học Montreal, Canada, nói.
Cuộc cách mạng LLM trong mấy năm vừa qua đã gợi ra những phỏng đoán rằng AGI có thể đã rất gần. Nhưng theo một số nhà khoa học, dựa trên những cách người ta đang xây dựng và huấn luyện các LLM hiện nay, chúng sẽ không đủ để đạt được AGI. “Vẫn có vài điều kiện còn thiếu” Bengio nói.
Nhưng đây chắc chắn là lúc phù hợp để đặt ra những câu hỏi về AGI. “Phần lớn đời mình, tôi nghĩ những người nói về AGI là đầu óc có vấn đề,” Subbarao Kambhampati, nhà khoa học máy tính tại Đại học Bang Arizona tại Tempe, nói. “Giờ thì rõ ràng tất cả mọi người đang nói về nó. Không thể nói rằng đầu óc của tất cả mọi người đều có vấn đề.”
Giờ đây có một kiến trúc mạng thần kinh mới – gọi là “transformer” đã giúp các LLM đạt được những thành tựu vượt xa chưa từng thấy. Transformers cho phép một mô hình nhận biết rằng vài mảnh có tác động mạnh mẽ tới các mảnh còn lại, dù chúng ở vị trí xa nhau trong một văn bản.
Vì sao cuộc tranh luận AGI thay đổi
Cụm từ “trí tuệ nhân tạo tổng quát” xuất hiện trong dòng chảy thời đại vào khoảng năm 2007, khi nó được dùng làm tiêu đề cuốn sách của hai nhà nghiên cứu AI Ben Goertzel và Cassio Pennachin. Lúc đó nó chưa có một định nghĩa đích xác, nhưng đại thể nó chỉ một hệ thống AI với khả năng suy luận và tổng quát hóa như người. Trong hầu hết lịch sử của AI, rõ ràng chúng ta chưa đạt được AGI. Lấy thí dụ AlphaGo, chương trình chơi cờ vây do Google DeepMind phát triển. Nó thắng được những kỳ thủ con người giỏi nhất thế giới, nhưng năng lực siêu phàm của nó chỉ đến thế – chơi cờ vây là tất cả những gì nó có thể làm.
Những năng lực mới của các LLM đã làm thay đổi căn bản bối cảnh. Giống như não người, LLM có nhiều năng lực phong phú, khiến một số nhà khoa học nghiêm túc xem xét ý tưởng rằng có thể sắp có, hoặc thậm chí đã có, một số dạng AGI.
Sự uyên bác của các LLM khiến người ta kinh ngạc, đặc biệt là khi chính các nhà nghiên cứu cũng chưa hiểu hết tại sao nó lại đạt được điều đó. Một LLM là một mạng thần kinh, mô hình học máy phỏng theo bộ não người; mạng này gồm các nơ-ron nhân tạo, tức các đơn vị tính toán, được sắp xếp thành các lớp với các tham số có thể điều chỉnh, biểu diễn độ mạnh-yếu trong liên kết giữa các nơ-ron. Trong quá trình huấn luyện, các LLM mạnh nhất – như o1, Claude (của Công ty Anthropic tại San Francisco) và Gemini của Google dựa vào một phương pháp gọi là dự đoán mảnh kế tiếp. Theo đó mô hình liên tục được học từ các văn bản mẫu đã được cắt thành các “mảnh”. Những mảnh này có thể là những từ ngữ hoàn chỉnh hoặc có thể chỉ là một số ký tự. Mảnh cuối cùng trong một chuỗi được ẩn đi và mô hình được yêu cầu dự đoán nó. Sau đó, người ta so sánh kết quả dự đoán với mảnh được che đi và điều chỉnh các tham số của mô hình để lần sau đoán tốt hơn.

Quá trình cứ thế tiếp tục – thường dùng đến hàng tỷ mẫu ngôn ngữ, văn bản khoa học và mã lập trình – cho đến khi mô hình có thể thường xuyên dự đoán đúng những mảnh ẩn giấu. Lúc này, các tham số của mô hình đã chứa cấu trúc thống kê cũng như tri thức bao hàm trong dữ liệu huấn luyện. Mô hình từ đó có thể dự đoán những mảnh mới khi được đưa cho những yêu cầu hay “câu nhắc” (prompt) mới, không nhất thiết có trong dữ liệu huấn luyện; quá trình này được gọi là suy luận.
Giờ đây có một kiến trúc mạng thần kinh mới – gọi là “transformer” đã giúp các LLM đạt được những thành tựu vượt xa chưa từng thấy. Transformers cho phép một mô hình nhận biết rằng vài mảnh có tác động mạnh mẽ tới các mảnh còn lại, dù chúng ở vị trí xa nhau trong một văn bản. Điều này cho phép LLM xử lý ngôn ngữ theo cách dường như giống với con người – chẳng hạn phân biệt hai nghĩa khác nhau của từ “bank” trong câu: “When the river’s bank flooded, the water damaged the bank’s ATM, making it impossible to withdraw money.” (“Khi bờ sông bị lụt, nước phá hỏng máy ATM của ngân hàng, khiến không thể rút tiền.” – từ “bank” vừa có nghĩa là bờ sông, vừa có nghĩa là ngân hàng.)
“LLM không thể thực sự thích nghi với những gì mới mẻ và đột phá, vì chúng không có khả năng tự lấy tri thức của mình và khéo léo nhào nặn những tri thức đó tức thì để đáp ứng với những bối cảnh mới” – Francois Chollet
Cách tiếp cận này hóa ra rất thành công trong rất nhiều trường hợp, bao gồm việc tạo ra các phần mềm để giải quyết những vấn đề được diễn tả bằng ngôn ngữ thường nhật, tóm tắt các nghiên cứu khoa học và giải toán.
Đặc biệt khi LLM có quy mô ngày càng lớn thì nó lại phát sinh thêm nhiều khả năng mới khiến người ta nghĩ rằng, liệu AGI có thể xuất hiện khi LLM đủ lớn hay không? Một ví dụ là CoT (chain-of-thought) prompt – nôm na là một kĩ thuật hỏi đáp với AI, yêu cầu AI chia nhỏ vấn đề hoặc giải quyết vấn đề từng bước một. Điều này có thể giúp các LLM trả lời đúng những câu hỏi mà trước đó chúng lúng túng. Nhưng các LLM nhỏ áp dụng quá trình này không tốt lắm.
Giới hạn của LLM
Theo OpenAI, CoT đã được tích hợp vào o1 và càng khiến mô hình này trở nên sắc sảo. Francois Chollet, nghiên cứu viên AI mới rời Google vào tháng 11 để lập công ty mới, nghĩ rằng o1 tích hợp một bộ sinh CoT để tạo ra nhiều CoT cho mỗi yêu cầu của người dùng, và có một cơ chế để lựa chọn một CoT tốt trong số đó. Trong quá trình huấn luyện, o1 không chỉ được hướng dẫn dự đoán mảnh kế tiếp, mà còn được dạy cách chọn CoT tốt nhất cho mỗi yêu cầu. Chẳng hạn, việc bổ sung suy luận CoT giải thích vì sao, theo OpenAI, o1-preview – phiên bản cao cấp của o1 – giải đúng 83% các bài toán trong một kỳ thi vòng loại chọn đội tuyển thi Olympic Toán Quốc tế (IMO). Để so sánh, LLM mạnh nhất trước đó của họ, GPT-4o, chỉ làm được 13%.

Nhưng bất chấp sự tinh vi của nó, o1 có những hạn chế và chưa phải AGI, Kambhampati và Chollet nhận định. Chẳng hạn, với những tác vụ đòi hỏi lập kế hoạch, nhóm của Kambhampati chỉ ra rằng mặc dù o1 thực hiện khá tốt những tác vụ cần lên kế hoạch đến 16 bước, hiệu quả của nó giảm mạnh khi số bước tăng lên khoảng 20 đến 40. Chollet cũng nhận ra những hạn chế tương tự khi cho o1-preview làm một bài kiểm tra suy luận trừu tượng và tổng quát hóa mà ông thiết kế để đo tiến độ tới AGI. Bài kiểm tra có dạng những câu đố hình ảnh. Để giải chúng cần rút ra quy luật trừu tượng từ các ví dụ cho trước, một việc khá dễ dàng với con người.
LLM, theo Chollet, dù ở quy mô nào cũng bị hạn chế bởi khả năng giải quyết các vấn đề đòi hỏi tái tổ hợp những gì đã học để thực hiện những nhiệm vụ mới. “LLM không thể thích nghi thực sự với những gì mới mẻ và đột phá, vì chúng không có khả năng tự lấy trí thức của mình và khéo léo nhào nặn những tri thức đó tức thì để đáp ứng với những bối cảnh mới”.
Transformer có thể mô hình hóa một lượng lớn các kịch bản, làm tăng xác suất để thuật toán huấn luyện phát hiện ra kịch bản nào mới phù hợp để giải quyết một vấn đề, và quy mô của mô hình càng lớn thì nó càng “uyên thâm”.
LLM có thể tạo ra AGI không?
Vậy thì liệu có khi nào LLM tạo ra được AGI không? Một ưu thế của chúng là kiến trúc transformer bên trong có thể xử lý và tìm ra các quy luật thống kê trong các dạng thông tin khác ngoài văn bản, chẳng hạn hình ảnh và ghi âm, miễn là có cách cắt các dữ liệu đó thành các mảnh phù hợp. Andrew Wilson, nhà nghiên cứu học máy tại Đại học New York, cùng các đồng nghiệp chỉ ra rằng điều này có thể do tất cả các dạng dữ liệu khác nhau có một điểm chung: các bộ dữ liệu đó có “độ phức tạp Kolmogorov” thấp. Độ phức tạp Kolmogorov của một dữ liệu được đo bằng độ dài của một chương trình máy tính ngắn nhất tạo ra các dữ liệu đó. Nhóm nghiên cứu cũng chỉ ra rằng kiến trúc transformer rất thích hợp để học các quy luật trong dữ liệu có độ phức tạp Kolmogorov thấp, và mô hình càng lớn thì LLM càng thích hợp. Transformer có thể mô hình hóa một lượng lớn các kịch bản, làm tăng xác suất để thuật toán huấn luyện phát hiện ra kịch bản nào mới phù hợp để giải quyết một vấn đề, và quy mô của mô hình càng lớn thì nó càng “uyên thâm”. Đây là “một trong những nguyên liệu thực sự cần để đạt được sự học [máy] tổng quát,” Wilson nói. Mặc dù nghĩ rằng AGI vẫn đang ngoài tầm với, ông nói rằng LLM và các hệ thống AI khác sử dụng kiến trúc transformer có một số tính chất chìa khóa của hành vi tựa AGI.

Nhưng cũng có những dấu hiệu cho thấy LLM dựa trên transformer có những giới hạn. Trước tiên, dữ liệu dùng để huấn luyện các mô hình đang dần cạn. Các nhà nghiên cứu tại Epoch AI, một viện nghiên cứu xu hướng AI tại San Francisco, ước tính rằng kho dữ liệu văn bản công cộng hiện tại để huấn luyện AI có thể sẽ cạn trong khoảng từ năm 2026 đến năm 2032. Cũng có những dấu hiệu cho thấy khi các LLM to lên, những tiến bộ chúng đạt được không lớn như trước, mặc dù không rõ điều đó là do thiếu dữ liệu mới hay do cái gì khác. Nếu là nguyên nhân sau, thì đó là một dấu hiệu không tốt cho LLM.
Raia Hadsell, Phó Giám đốc Nghiên cứu tại Google DeepMind London, nêu ra một vấn đề khác. Các LLM dựa trên transformer được huấn luyện để dự đoán mảnh tiếp theo, nhưng theo bà, mục tiêu duy nhất này quá hạn chế để tạo ra AGI. Thay vào đó, xây dựng các mô hình có thể sinh ra toàn bộ hoặc những “mảnh lớn” của lời giải ngay tắp lự có thể đưa chúng ta đến gần hơn với AGI, bà nói. Những thuật toán có thể giúp xây dựng các mô hình như thế đã bắt đầu được triển khai ở một số hệ thống phi-LLM, chẳng hạn DALL-E của OpenAI có thể sinh ra những hình ảnh thực tế, đôi khi giống ảo giác, theo yêu cầu bằng ngôn ngữ tự nhiên. Nhưng chúng không có năng lực đa dạng như LLM.
Xây dựng mô hình thế giới
Các nhà khoa học thần kinh có trực giác về việc cần những đột phá gì mới để có thể đạt được AGI. Họ lập luận, trí tuệ của chúng ta có được là do bộ não có khả năng xây dựng một “mô hình thế giới” biểu diễn môi trường xung quanh. Nó có thể được dùng để tưởng tượng các hướng hành động khác nhau và hệ quả của chúng, từ đó suy luận và lập kế hoạch. Nó cũng có thể được dùng để tổng quát hóa các kỹ năng được học trong một lĩnh vực sang những tác vụ mới bằng cách mô phỏng các kịch bản khác nhau.
Một số báo cáo tuyên bố có bằng chứng về sự xuất hiện của các mô hình thế giới sơ khai trong các LLM. Trong một nghiên cứu, Wes Gurnee và Max Tegmark tại Viện Công nghệ Massachusetts khẳng định rằng một nhóm LLM mã nguồn mở phổ biến đã tự phát triển một thế giới nội tại của riêng nó, đó là hình ảnh nước Mỹ và thành phố New York khi các bộ dữ liệu huấn luyện nó có chứa thông tin về các địa điểm này. Mặc dù các nhà nghiên cứu khác viết trên X (trước đây là Twitter) rằng không có bằng chứng nào cho thấy các LLM biết dùng các mô hình thế giới để giả lập các tình huống hay nhận biết các mối quan hệ nhân quả. Trong một nghiên cứu khác, Kenneth Li, nhà khoa học máy tính tại Đại học Harvard, cùng các đồng nghiệp chỉ ra bằng chứng cho thấy một LLM nhỏ được huấn luyện trên các bản ghi nước đi của những kì thủ chơi cờ Othello đã biết “tự hình dung” ra trạng thái của bàn cờ và dùng nó để dự đoán đúng nước đi hợp lệ tiếp theo.
Các AI với khả năng xây dựng mô hình thế giới thực sự và có các vòng lặp phản hồi tích hợp cũng có thể ít phụ thuộc hơn vào dữ liệu bên ngoài, vì chúng có thể tự sinh ra dữ liệu của mình bằng tự chạy mô phỏng nội bộ, đưa ra phản biện và dùng chúng để hiểu, suy luận và lập kế hoạch.
Tuy vậy các kết quả khác cho thấy các mô hình thế giới do các AI hiện tại tạo ra có thể không đáng tin cậy. Trong một nghiên cứu, nhà khoa học máy tính Keyon Vafa tại Đại học Harvard cùng các đồng nghiệp sử dụng một dữ liệu khổng lồ ghi lại các lần rẽ của taxi ở thành phố New York để huấn luyện một mô hình dựa trên transformer dự đoán lần rẽ tiếp theo trong một dãy các lần rẽ, và nó đạt được độ chính xác 100%.
Khi nghiên cứu các ngã rẽ mà mô hình sinh ra, các nhà khoa học có thể chỉ ra rằng nó đã xây dựng một bản đồ nội tại để đưa ra các câu trả lời. Nhưng bản đồ đó trông không giống gì khu Manhattan, nó “chứa những con phố chạy theo những hướng phi vật lý và bay qua những phố khác,” các tác giả viết trong bài báo. “Mặc dù mô hình làm tốt việc chỉ đường, nó thực hiện điều đó với một tấm bản đồ khó hiểu,” Vafa nói. Và khi các nhà khoa học thay đổi dữ liệu kiểm tra bằng cách thêm vào những ngã rẽ không có trong dữ liệu huấn luyện, mô hình đoán sai lần rẽ tiếp theo, cho thấy nó không có khả năng thích nghi với tình huống mới.
Tầm quan trọng của phản hồi
Một đặc điểm quan trọng là các LLM hiện nay thiếu những phản hồi nội tại, theo Dileep George, thành viên nhóm nghiên cứu AGI tại Google DeepMind tại Mountain View, California. Não người có đầy những liên kết phản hồi cho phép thông tin chạy giữa các lớp nơ-ron theo cả hai chiều. Điều này cho phép thông tin chạy từ các giác quan đến các lớp cao hơn trong não để tạo ra các mô hình thế giới mô tả môi trường xung quanh. Nó cũng có nghĩa thông tin về mô hình thế giới có thể lan truyền ngược lại và hướng dẫn việc thu thập thêm các thông tin cảm giác khác. Những quá trình hai chiều như vậy dẫn đến những năng lực như tự nhận thức và lập kế hoạch.
Nhưng các LLM hiện tại chỉ có thể dùng phản hồi theo cách bổ sung. Với o1, có thể CoT nội bộ – trong đó các gợi ý được sinh ra để trả lời một yêu cầu và đưa cho LLM trước khi nó tạo ra câu trả lời cuối cùng – là một dạng liên kết phản hồi. Nhưng, như đã thấy với các thử nghiệm trên o1 của Chollet, điều này không đảm bảo suy luận trừu tượng chặt chẽ.
Các nhà khoa học, trong đó có Kambhampati, cũng đã thử cài thêm các mô-đun kiểm tra bên ngoài vào LLM. Chúng kiểm tra các câu trả lời do LLM sinh ra trong một ngữ cảnh cụ thể, chẳng hạn lên kế hoạch khả thi cho một chuyến đi, và yêu cầu LLM trả lời lại nếu chưa đạt. Nhóm của Kambhampati chỉ ra rằng các LLM có mô-đun kiểm tra hỗ trợ có thể tạo ra các kế hoạch tốt hơn hẳn so với các LLM nguyên bản. Vấn đề là phải thiết kế các mô-đun kiểm tra đó cho từng tác vụ. “Không có mô-đun kiểm tra tổng quát,” Kambhampati nói. Trong khi đó, một hệ thống AGI sử dụng cách tiếp cận này có thể phải biết cách tự xây dựng mô-đun kiểm tra phù hợp với tình huống khi cần, giống như cách con người có thể dùng các quy tắc trừu tượng để đảm bảo lập luận đúng, ngay cả với các tác vụ mới. Những nỗ lực tạo ra các AI mới dựa trên những ý tưởng này hiện vẫn đang trong giai đoạn phôi thai.
Một rào cản lớn khác là LLM ngốn quá nhiều dữ liệu. Karl Friston, nhà thần kinh học lý thuyết tại University College London, đề xuất rằng các hệ thống trong tương lai có thể được tăng hiệu suất bằng cách cho chúng khả năng tự quyết định cần lấy mẫu bao nhiêu dữ liệu từ môi trường để xây dựng các mô hình thế giới và dự đoán bằng suy luận, thay vì tiêu hóa hết tất cả dữ liệu được cung cấp. Theo Friston, điều này thể hiện một dạng tự chủ, có thể cần cho AGI.
Các AI với khả năng xây dựng mô hình thế giới thực sự và có các vòng lặp phản hồi tích hợp cũng có thể ít phụ thuộc hơn vào dữ liệu bên ngoài, vì chúng có thể tự sinh ra dữ liệu của mình bằng tự chạy mô phỏng nội bộ, đưa ra phản biện và dùng chúng để hiểu, suy luận và lập kế hoạch. Thực tế, năm 2018, các nhà khoa học David Ha, khi đó làm việc tại Google Brain tại Tokyo, và Jürgen Schmidhuber tại Viện Nghiên cứu AI Dalle Molle tại Lugano-Viganelllo, Thụy Sĩ, công bố đã xây dựng một mạng thần kinh có thể xây dựng hiệu quả một mô hình thế giới của một môi trường ảo, sau đó dùng nó để huấn luyện AI đua xe ảo.
Nếu bạn nghĩ rằng các hệ thống AI với mức độ tự chủ này nghe đáng sợ, thì nhiều người cũng nghĩ vậy. Ngoài nghiên cứu cách xây dựng AGI, Bengio cũng là một nhà vận động tích hợp tính an toàn trong thiết kế và kiểm soát các hệ thống AI. Ông lập luận rằng nghiên cứu cần tập trung vào việc huấn luyện các mô hình có thể đảm bảo sự an toàn của hành vi của chính mình. Ngoài ra, các chính phủ cần đảm bảo ứng dụng an toàn. “Chúng ta cần một quy trình dân chủ để đảm bảo chắc chắn rằng các cá nhân, tập đoàn, thậm chí quân đội, sử dụng và phát triển AI một cách an toàn cho công chúng,” ông nói.
Vậy liệu có bao giờ có thể đạt đến AGI? Các nhà khoa học máy tính nói rằng không có lý do gì để nghĩ là không. “Không có trở ngại về mặt lý thuyết,” George nói. Melanie Mitchell, nhà khoa học máy tính tại Viện Santa Fe tại New Mexico, đồng tình. “Con người và một số động vật khác là bằng chứng về mặt nguyên lý rằng ta có thể đạt đến đó,” bà nói. “Tôi không nghĩ rằng có gì quá đặc biệt trong các hệ thống sinh học so với các hệ thống làm bằng các vật liệu khác mà có thể ngăn cản, về mặt nguyên lý, các hệ thống phi sinh học trở nên thông minh.”
Nhưng ngay cả khi điều đó là có thể, có rất ít sự đồng thuận về thời điểm nó sẽ đến: các ước lượng nằm trong khoảng trong vòng vài năm đến ít nhất mười năm nữa. Nếu một hệ thống AGI được tạo ra, George nói, chúng ta sẽ biết khi thấy nó. Chollet ngờ rằng nó sẽ đến dần dần. “Khi AGI đến, nó sẽ không gây chú ý hay gây chấn động như bạn nghĩ,” ông nói. “Sẽ cần thời gian để AGI đạt được đầy đủ tiềm năng của nó. Đầu tiên, nó sẽ được phát minh ra. Sau đó, bạn phải tăng quy mô và ứng dụng nó, cho đến khi nó bắt đầu thực sự thay đổi thế giới.”□
TS. Nguyễn Hoàng Thạch, Viện Toán học
lược dịch
Nature 636, 22-25 (2024)
doi: https://doi.org/10.1038/d41586-024-03905-1
Bài đăng Tia Sáng số 4/2025