Nghiên cứu AI để hiểu chính mình 

Việc phát triển các mô hình AI, những hệ vận hành một cách thông minh, không ngờ lại là cách chúng ta hiểu chính mình hơn, cụ thể là hiểu vì sao bộ não của chúng ta lại kỳ diệu đến vậy.

Hiện các nhà khoa học nghiên cứu các mạng neuron nhân tạo được huấn luyện với rất ít hoặc gần như không có dữ liệu do con người gắn nhãn.

Học theo cách tự giám sát cho phép các mạng neuron học được những điểm quan trọng. Đó cũng có thể là cách mà bộ não của chúng ta vận hành thành công đến vậy. Hơn một thập kỷ qua, các hệ thống trí tuệ nhân tạo AI tốt nhất được tạo ra dựa trên những kho dữ liệu được dán nhãn khổng lồ. Ví dụ, một hình ảnh có thể được gắn nhãn là “mèo mướp” hoặc “hổ” để “huấn luyện” những mạng neuron nhân tạo phân biệt chính xác mèo mướp với hổ. Cách tiếp cận này đã thành công một cách ngoạn mục nhưng cũng chứa đựng những thiếu sót đáng tiếc.

Quá trình đào tạo “được giám sát” như vậy đòi hỏi con người phải dán nhãn cho từng tệp dữ liệu một cách tỉ mỉ. Sau đó, các mạng neuron nhân tạo đi theo lối tắt – chúng học cách liên kết các nhãn với hình ảnh ban đầu và đôi khi chỉ sử dụng những thông tin tối thiểu và hời hợt. Ví dụ, mạng neuron nhân tạo có thể nhận dạng một cỏ thành ra một con bò, vì những bức ảnh chứa bò thường được chụp trên các cánh đồng cỏ.

Alexei Efros, một nhà khoa học máy tính tại Đại học California tại Berkeley cho biết: “Chúng ta đã tạo ra một thế hệ thuật toán giống như những sinh viên không đến lớp trong suốt học kỳ và chỉ học một cách nhồi nhét ngay đêm trước kỳ thi”. “Họ không thực sự đọc tài liệu nhưng lại làm bài kiểm tra rất tốt.”

Hơn nữa, đối với các nhà nghiên cứu quan tâm đến sự giao thoa giữa trí thông minh của động vật và máy móc, “học tập có giám sát” kiểu này không giúp con người khám phá thêm về bộ não sinh học. Động vật — kể cả con người — không sử dụng các tập dữ liệu được gắn nhãn để học. Phần lớn chúng ta tự mình khám phá môi trường và đúc kết ra những hiểu biết sâu sắc và phong phú về thế giới.

Giờ đây, một số nhà thần kinh học tính toán đã bắt đầu nghiên cứu các mạng neuron nhân tạo được huấn luyện với rất ít hoặc gần như không có dữ liệu do con người gắn nhãn. Các thuật toán “học tự giám sát” này đã tỏ ra cực kỳ thành công trong việc mô hình hóa ngôn ngữ của con người và gần đây cũng thành công cho việc nhận dạng hình ảnh. Trong một nghiên cứu gần đây, các mô hình mô phỏng hệ thống thính giác và thị giác của động vật có vú được xây dựng bằng mô hình học tự giám sát đã cho thấy sự tương ứng chặt chẽ hơn với chức năng não so với các mô hình học có giám sát trước đó. Đối với một số nhà thần kinh học, có vẻ như mạng neuron nhân tạo đang bắt đầu hé lộ những cách mà bộ não chúng ta khám phá thế giới.

Các thuật toán tự giám sát về cơ bản tạo ra các khoảng trống trong dữ liệu và yêu cầu mạng lưới thần kinh điền vào chỗ trống. Chúng sẽ huấn luyện bộ mã hóa-giải mã để khôi phục các hình ảnh được che giấu thành phiên bản đầy đủ của chúng.

Cùng thời gian đó, các nhà thần kinh học đã phát triển các mô hình tính toán đầu tiên của hệ thống thị giác linh trưởng, sử dụng mạng neuron nhân tạo AlexNet và các mạng kế tiếp. Sự kết hợp này đầy hứa hẹn. Ví dụ, khi khỉ và mạng neuron nhân tạo cùng xem những hình ảnh giống nhau, hoạt động của tế bào thần kinh thực và tế bào thần kinh nhân tạo cho thấy sự tương ứng. Tiếp theo là các mô hình neuron nhân tạo về thính giác và khứu giác.

Nhưng khi lĩnh vực này phát triển, các nhà nghiên cứu nhận ra những hạn chế của việc đào tạo có giám sát. Ví dụ, vào năm 2017, Leon Gatys, một nhà khoa học máy tính tại Đại học Tübingen ở Đức và các đồng nghiệp của ông đã chụp ảnh một chiếc Ford Model T, sau đó chèn họa tiết da báo lên khắp bức ảnh, tạo ra một hình ảnh kỳ quái nhưng dễ nhận biết. Mạng neuron nhân tạo tiên tiến nhất khi đó đã phân loại chính xác hình ảnh gốc là Model T nhưng lại coi hình chỉnh sửa là một con báo. Nó đã cố định về kết cấu và không hiểu hình dạng của một chiếc ô tô (hoặc một con báo).

Cách học tự giám sát được thiết kế để tránh những vấn đề như vậy. Theo cách tiếp cận này, con người không dán nhãn dữ liệu. Đúng hơn, “các nhãn đến từ chính dữ liệu”, Friedemann Zenke, nhà khoa học thần kinh tính toán tại Viện Nghiên cứu Y sinh Friedrich Miescher ở Basel, Thụy Sĩ cho biết. Các thuật toán tự giám sát về cơ bản tạo ra các khoảng trống trong dữ liệu và yêu cầu mạng lưới thần kinh điền vào chỗ trống. Ví dụ, trong cái gọi là mô hình ngôn ngữ lớn, thuật toán huấn luyện sẽ hiển thị cho mạng neuron nhân tạo một vài từ đầu tiên của câu và yêu cầu nó dự đoán từ tiếp theo. Khi được đào tạo với một kho văn bản khổng lồ thu thập được từ internet, mô hình dường như học được cấu trúc cú pháp của ngôn ngữ, thể hiện khả năng ngôn ngữ ấn tượng – tất cả đều không có nhãn hoặc sự giám sát bên ngoài.


Một nỗ lực tương tự đang được tiến hành trong lĩnh vực thị giác máy tính. Vào cuối năm 2021, Kaiming He và các đồng nghiệp đã công bố mô hình “tự mã hóa che phủ” (“masked auto-encoder”), được xây dựng dựa trên kỹ thuật do nhóm của Efros tìm ra vào năm 2016. Thuật toán tự giám sát che giấu ngẫu nhiên gần 3/4 mỗi hình ảnh. Sau đó mô hình sẽ biến các phần bị che giấu thành các biến ẩn – các đại lượng toán học nén chứa đựng thông tin quan trọng về một đối tượng. (Trong trường hợp của một hình ảnh, biến ẩn có thể là một biểu diễn toán học ghi lại hình dạng của một vật thể trong hình ảnh bên cạnh những thứ khác.) Sau đó, bộ giải mã sẽ chuyển đổi các biểu diễn đó thành hình ảnh đầy đủ.

Thuật toán tự giám sát sẽ huấn luyện bộ mã hóa-giải mã để khôi phục các hình ảnh được che giấu thành phiên bản đầy đủ của chúng. Bất kỳ sự khác biệt nào giữa hình ảnh thật và hình ảnh được tái tạo sẽ được phản hồi lại vào hệ thống để tự cải tiến. Quá trình này lặp lại trên một tập ảnh huấn luyện cho đến khi tỷ lệ lỗi chung đạt được mức thấp phù hợp. Lấy ví dụ, mô hình “tự mã hóa che phủ” sau khi huấn luyện đã dự báo hình ảnh của một chiếc xe buýt chưa từng thấy trước đó bị che đến 80% trở lại thành cấu trúc của một xe buýt.

“Kết quả này rất ấn tượng”. Efros nói: 

Các biểu diễn tiềm ẩn được tạo ra trong một hệ thống như thế này dường như chứa đựng thông tin có ý nghĩa hơn nhiều so với những mô hình trước. Ví dụ: hệ thống có thể nhận biết hình dạng của một chiếc ô tô – hoặc một con báo – chứ không chỉ họa tiết của chúng. Efros cho biết “Đây thực sự là ý tưởng cơ bản của việc học tự giám sát – bạn xây dựng kiến thức của mình từ đầu”. Không cần phải nhồi nhét vào phút cuối để vượt qua các bài kiểm tra.

Bộ não tự giám sát

Một số nhà thần kinh học đã nhận ra cách chúng ta học tập từ những hệ thống như vậy. Blake Richards từ Đại học McGill và Mila, Viện Trí tuệ Nhân tạo Quebec, cho biết: “Tôi nghĩ chắc chắn rằng 90% hoạt động của bộ não là tự học tập”. Bộ não sinh học được cho là liên tục dự đoán vị trí của một vật thể trong tương lai khi nó chuyển động, hoặc từ tiếp theo trong câu nói của ai đó, giống như thuật toán tự giám sát cố gắng dự đoán phần khuyết trong hình ảnh hoặc một đoạn văn bản. Và bộ não cũng tự học hỏi từ những sai lầm của chính mình. Nó chỉ học một phần nhỏ từ phản hồi của một nguồn bên ngoài, ví dụ ai đó nhận xét, “bạn trả lời sai rồi”.

Hãy xem xét hệ thống thị giác của con người và các loài linh trưởng khác. Đây là giác quan được nghiên cứu nhiều nhất trong tất cả các giác quan của động vật. Các nhà khoa học thần kinh nhận thấy chúng bao gồm hai con đường riêng biệt: luồng thị giác ở bụng, chịu trách nhiệm nhận biết các vật thể và khuôn mặt, và luồng thị giác từ lưng, xử lý chuyển động (“đường dẫn cái gì” và “ở đâu” tương ứng). Và họ chưa biết giải thích lý do tại sao.

Richards và nhóm của ông đã tạo ra một mô hình tự giám sát để gợi ý câu trả lời. Họ đã đào tạo một mô hình AI kết hợp hai mạng thần kinh khác nhau: Mạng đầu tiên là kiến trúc ResNet, được thiết kế để xử lý hình ảnh; mạng thứ hai là mạng hồi quy, có thể theo dõi một chuỗi các đầu vào trước đó để đưa ra dự đoán về đầu vào dự kiến tiếp theo. Để đào tạo mô hình AI kết hợp, nhóm bắt đầu với một chuỗi gồm 10 khung hình từ một video và để ResNet xử lý từng khung hình một. Sau đó, mạng lặp lại dự đoán biểu diễn tiềm ẩn của khung thứ 11 không chỉ khớp với 10 khung hình đầu tiên. Thuật toán học tự giám sát đã so sánh dự đoán với giá trị thực tế và hướng dẫn mạng lưới thần kinh cập nhật trọng số của chúng để đưa ra dự đoán tốt hơn.

Nhóm của Richards phát hiện ra rằng AI được đào tạo bằng một ResNet duy nhất có khả năng nhận dạng đối tượng tốt nhưng không giỏi phân loại chuyển động. Nhưng khi họ tách mạng ResNet thành hai nhánh (mà không thay đổi tổng số neuron), mô hình AI đã học các biểu diễn vật thể riêng trong một nhanh và cho chuyển động vật thể trong nhánh kia, điều này cho phép phân loại các thuộc tính này phù hợp – giống như cách bộ não của chúng ta hoạt động.

Để kiểm tra AI sâu hơn, nhóm nghiên cứu đã tạo mô hình dự báo một video mà các nhà nghiên cứu tại Viện Khoa học Não Allen ở Seattle đã cho chuột xem trước đó. Giống như loài linh trưởng, chuột có vùng não chuyên biệt cho các hình ảnh tĩnh và chuyển động. Các nhà nghiên cứu của Allen đã ghi lại hoạt động thần kinh ở vỏ não thị giác của chuột khi chúng xem video.

Nhóm Richards cũng tìm thấy những điểm tương đồng trong cách AI và bộ não sống phản ứng với các video. Trong quá trình huấn luyện, một trong những nhánh mạng AI học và phát triển giống với vùng bụng, tức là phát hiện vật thể và nhánh còn lại học và phát triển giống với vùng lưng tập trung vào chuyển động.

Richards cho biết kết quả cho thấy hệ thống thị giác của chúng ta có hai nhánh riêng biệt cho phép dự đoán chuyển động tiếp theo; một nhánh duy nhất là không đủ tốt.

Các mô hình về thính giác của con người cũng tương tự. Vào tháng sáu, một nhóm do Jean-Rémi King, một nhà khoa học nghiên cứu tại Meta AI dẫn đầu đã đào tạo một AI có tên Wav2Vec 2.0, sử dụng mạng lưới thần kinh để biến âm thanh thành các biểu diễn ẩn. Họ che giấu một số biểu diễn này, sau đó đưa vào một mạng neuron thành phần gọi là “transformer”. Trong quá trình huấn luyện, mô hình transformer dự đoán thông tin bị che giấu. Và toàn bộ mô hình AI sẽ học cách biến đổi âm thanh thành các biểu diễn ẩn mà không cần con người dán nhãn. Nhóm đã sử dụng khoảng 600 giờ dữ liệu giọng nói để đào tạo mạng AI này, “gần bằng những gì một đứa trẻ sẽ nhận được trong [hai] năm trải nghiệm đầu tiên,” King cho biết.

Sau khi hệ thống được đào tạo, các nhà nghiên cứu cho đọc sách tiếng Anh, tiếng Pháp và tiếng Quan Thoại cho AI và so sánh với dữ liệu từ 412 người bản ngữ của ba ngôn ngữ trên. Những người thử nghiệm được nghe cùng một đoạn âm thanh và não của họ được quét cộng hưởng từ fMRI. King cho biết mô hình AI của ông và bộ não con người (mặc dù hình ảnh fMRI khá nhiễu và độ phân giải thấp) “không chỉ tương quan với nhau mà còn tương quan theo kiểu có hệ thống”: Hoạt động trong các lớp đầu của AI phù hợp với hoạt động ở vỏ não thính giác sơ cấp, trong khi hoạt động của các lớp sâu nhất của AI phù hợp với hoạt động ở các lớp cao hơn trong não, trong trường hợp này là vỏ não trước trán. “Đó thực sự là kết quả tuyệt vời,” Richards nói. “Tuy không phải là kết luận chắc chắn nhưng đó là một bằng chứng thuyết phục cho thấy cách chúng ta học ngôn ngữ phần lớn là bằng cách cố gắng dự đoán những điều tiếp theo sẽ được nói ra”.

Chưa phải là hoàn hảo

Không phải ai cũng bị thuyết phục bởi các mô hình tự giám sát. Josh McDermott, một nhà khoa học thần kinh tính toán tại Viện Công nghệ Massachusetts đã nghiên cứu các mô hình về thị giác và thính giác bằng cách sử dụng cả phương pháp có giám sát và tự giám sát. Nhóm của ông đã thiết kế mô hình gọi là “metamer” tổng hợp các tín hiệu âm thanh và hình ảnh tổng hợp thành tín hiệu mà con người chỉ nghe như những tiếng ồn khó hiểu. Tuy nhiên một mạng neuron lại coi các dữ liệu này như các tín hiệu âm thanh thực. Điều này cho thấy rằng các biểu diễn hình thành trong các lớp sâu hơn của mạng lưới thần kinh, ngay cả với quá trình học tập tự giám sát, không khớp với các biểu diễn trong não của chúng ta. McDermott cho biết, những phương pháp học tập tự giám sát này “đã đạt được tiến bộ theo nghĩa là bạn có thể học các cách biểu diễn dữ liệu cho nhận dạng mà không cần phải đánh nhãn”. “Nhưng mô hình mới vẫn còn nhiều hạn chế của các mô hình giám sát.”

Bản thân các thuật toán cũng cần cải tiến nhiều hơn. Ví dụ trong mô hình Wav2Vec 2.0 của Meta AI, AI chỉ nghe vài chục mili giây âm thanh đầu tiên, còn chưa đủ để phát ra một tiếng ồn có thể nhận biết được, chứ chưa nói đến một âm. King cho biết “Có rất nhiều việc phải làm để làm được điều gì đó tương tự như những gì bộ não làm.”

Thực sự hiểu được chức năng của não cần nhiều nghiên cứu hơn nữa chứ không chỉ là các mô hình tự giám sát. Thứ nhất, bộ não chứa đầy các kết nối có tính phản hồi trong khi các mô hình AI hiện tại có rất ít kết nối như vậy. Bước tiếp theo là sử dụng phương pháp học tự giám sát để huấn luyện các mạng có cấu trúc lặp cao, và xem các mạng AI đó hoạt động có giống so với cách bộ não vận hành. Bước quan trọng khác là mô phỏng được hoạt động của các neuron nhân tạo trong các mô hình học tự giám sát giống với hoạt động của từng neuron sinh học riêng lẻ. King cho biết: “Hy vọng rằng trong tương lai, kết quả của chúng tôi đạt tới mức điều khiển từng tế bào đơn lẻ”.

Nếu những tương đồng giữa bộ não và các mô hình học tự giám sát cũng phù hợp với các giác quan khác thì đây là một tiến bộ rất lớn, khi chúng ta có thể thực sự mô phỏng hoạt động của bộ não với các mô hình tự giám sát theo một cách nào đó. King cho biết “Nếu chúng tôi tìm thấy những tương đồng về mặt hệ thống giữa các thực thể khác nhau thì có nghĩa là thiên nhiên cũng không có nhiều cách xử lý thông tin thông minh”. “Ít nhất đó là một giả thuyết chúng tôi muốn nghiên cứu.”□

Nguyễn Quang dịch

Nguồn: https://www.quantamagazine.org/self-taught-ai-shows-similarities-to-how-the-brain-works-20220811/

Tác giả