Robot tích hợp AI 

Sự kết hợp giữa trí tuệ nhân tạo (AI) và robot đem lại nhiều đột phá mới. Nhưng con đường đi từ phòng thí nghiệm đến quy mô ứng dụng đại trà không đơn giản.

Robot hình người sử dụng chương trình của OpenAI. Ảnh: AP Photo/Jae C. Hong/Alamy.

Liệu viễn tượng về những robot đi khắp các thành phố giống như trong các bộ phim như Star Wars bao giờ trở thành hiện thực? 

“Tôi sẽ không ngạc nhiên nếu chúng ta là thế hệ cuối cùng cũng không thấy được những cảnh khoa học viễn tưởng đó”, Alexander Khazatsky, nhà nghiên cứu về máy học và robot tại Đại học Stanford ở California nói. 

Từ OpenAI đến Google DeepMind, hầu hết mọi công ty công nghệ lớn về AI đều đang nỗ lực đưa các mô hình máy học vào chế tạo robot nhằm trang bị cho robot những kiến ​​thức thông thường, cho phép giải quyết nhiều nhiệm vụ khác nhau. Nhiều nhà nghiên cứu nhận định rằng robot có thể trở nên rất tốt, rất nhanh. “Chúng tôi tin rằng chúng ta đang ở một ngưỡng thay đổi trong lĩnh vực robot”, Gerard Andrews, Giám đốc tiếp thị mảng robot tại Công ty Công nghệ Nvidia cho biết. Vào tháng 3 vừa qua công ty này cũng đã ra mắt một mẫu AI cho robot hình người. 

Ngược lại, robot cũng có thể giúp cải thiện AI. Nhiều nhà nghiên cứu hy vọng rằng việc mang lại trải nghiệm thể chất gắn với các tương tác, cảm xúc và các giác quan vào quá trình đào tạo AI có thể rút ngắn con đường chạm tới giấc mơ có “trí tuệ nhân tạo tổng quát” – tạo ra AI có khả năng nhận thức giống con người. Akshara Rai, nhà nghiên cứu AI tại Meta, cho biết: “Bước cuối cùng để đạt tới trí thông minh thực sự phải là trí thông minh thể chất”.

Việc hướng tới các robot hình người rất phức tạp và không phải lúc nào cũng phù hợp cho các nhiệm vụ thể chất cụ thể mà robot phải thực hiện, nhưng nó lại có lợi ích to lớn là hoàn toàn phù hợp với thế giới con người.

Nhưng mặc dù nhiều nhà nghiên cứu rất hào hứng với việc đưa các thành tựu mới nhất về AI vào chế tạo robot, họ cũng cảnh báo rằng có thể bây giờ chủ yếu mới chỉ dừng lại ở những “cuộc trình diễn” tạo tiếng vang của các công ty, hơn là triển khai thực sự trong đời sống. Rodney Brooks, nhà chế tạo robot tại Viện Công nghệ Massachusetts và có công ty iRobot, đã phát minh ra máy hút bụi tự động Roomba, cho biết có thể phải mất một chặng đường dài từ trình diễn đến triển khai vào thực tế.

Có rất nhiều trở ngại trên con đường này, kẻ cả thu thập đủ dữ liệu phù hợp để huấn luyện AI và robot, xử lý phần cứng còn thiếu ổn định cho đến những lo ngại về an toàn. Harold Soh, chuyên gia về tương tác người – robot tại Đại học Quốc gia Singapore, cho biết các mô hình máy học nền tảng cho robot “cần được khám phá”. Tuy nhiên, ông cũng vẫn còn hoài nghi rằng điều này có đem lại cuộc cách mạng về robot như nhiều nhà nghiên cứu dự đoán hay không.

Nhiều đột phá mới

Thuật ngữ robot bao gồm nhiều loại thiết bị tự động, từ cánh tay robot được sử dụng rộng rãi trong các nhà máy trên khắp thế giới hiện nay, cho đến ô tô tự lái hay máy bay không người lái hiện nay đang chủ yếu phục vụ các nhiệm vụ cứu nạn cứu hộ và chiến tranh… hầu hết đều tích hợp AI – chẳng hạn như để nhận dạng vật thể. Nhưng các robot này cũng được lập trình để thực hiện các tác vụ cụ thể, làm việc trong những môi trường hoặc vận hành với sự giám sát của con người ở các mức độ khác nhau. Ngay cả Atlas – một robot cực kỳ nổi tiếng do hãng Boston Dynamics sản xuất, có thể thực hiện nhiều kỹ năng thể thao linh hoạt từ năm 2018 – cũng mới hoạt động bằng cách nạp bản đồ xung quanh và chọn các hành động tốt nhất từ một thư viện tập hợp các mẫu hoạt động đã cho trước để thực hiện.

Hầu hết các nhà nghiên cứu AI đang nghiên cứu về robot đặt mục tiêu là tạo ra dòng robot có khả năng tự chủ cao hơn và tự thích ứng cao hơn trong nhiều hoàn cảnh khác nhau hơn. Có thể là những phiên bản cánh tay robot có thể linh hoạt “gắp và đặt” bất kỳ sản phẩm nào trong nhà máy, hoặc sẽ là những robot hình người hỗ trợ hoạt động trong các công ty hay hỗ trợ chăm sóc người cao tuổi. 

Khi được ra lệnh “nhặt lấy một con vật đã tuyệt chủng”, robot RT2 đã tự chọn lấy khủng long ở trên bàn có rất nhiều đồ vật khác nhau. Ảnh: Google DeepMind

Việc hướng tới các robot hình người rất phức tạp và không phải lúc nào cũng phù hợp cho các nhiệm vụ thể chất cụ thể mà robot phải thực hiện, nhưng nó lại có lợi ích to lớn là hoàn toàn phù hợp với thế giới con người. Một robot hình người sẽ có thể tương tác vật lý với thế giới giống như cách con người làm. Nhưng việc điều khiển bất kỳ robot nào – chứ đừng nói đến robot hình người – là vô cùng khó khăn. 

Rất nhiều nhiệm vụ vô cùng đơn giản với con người, chẳng hạn như mở cửa, thực ra lại cực kỳ phức tạp trong quá trình đào tạo robot, đòi hỏi phải huấn luyện cho robot về các cơ chế hoạt động của các loại cửa khác nhau, lực tác động lên tay cầm là bao nhiêu và cách giữ cân bằng trong khi mở cửa. Thế giới thực vô cùng đa dạng và thay đổi liên tục.

Cách tiếp cận hiện nay là điều khiển robot bằng cách sử dụng cùng loại mô hình AI nền tảng cho các chương trình tạo hình ảnh và chatbot như ChatGPT. Những mô hình này sử dụng mạng lưới thần kinh học tập giống cách mà não học để học từ lượng lớn dữ liệu chung. Các mô hình này xây dựng mối liên kết giữa các thành phần trong dữ liệu được đào tạo và khi được yêu cầu cung cấp đầu ra, nó sẽ dựa vào các kết nối này để tạo ra các từ hoặc hình ảnh thích hợp, thường mang lại kết quả tốt đến mức khó tin.

Mặc dù các chatbot phổ biến hiện nay đang được đào tạo dựa trên hàng tỷ dữ liệu văn bản, hình ảnh từ trên internet nhưng không có bộ dữ liệu lớn tương tự cho hoạt động của robot. Và việc thiếu dữ liệu này đang là nút thắt lớn của ngành robot. 

Tương tự như vậy, mô hình AI nền tảng để huấn luyện robot dựa trên văn bản và hình ảnh sẵn có trên internet để cung cấp thông tin về bản chất, bối cảnh của các đối tượng khác nhau. Mô hình cũng học hỏi từ chính các hoạt động của robot. Ví dụ: mô hình có thể được đào tạo trên chính các video về quá trình thử và sai của robot hoặc video về robot đang được con người vận hành từ xa, cùng với các hướng dẫn đi kèm với các hành động đó. Sau khi được đào tạo, mô hình AI có thể quan sát một tình huống và sử dụng các liên kết đã học được để dự đoán hành động nào mang lại kết quả tốt nhất.

Google DeepMind đã xây dựng một trong những mô hình nền tảng tiên tiến nhất, được gọi là Robotic Transformer 2 (RT2), có thể vận hành cánh tay robot di động do công ty “chị em” của Google Deepmind, Everyday Robots chế tạo. Giống như các mô hình nền tảng khác, RT2 được đào tạo từ cả kiến thức trên internet và các video vận hành robot. Nhờ đã được đào tạo từ kiến thức trên internet, RT2 có thể làm theo hướng dẫn ngay cả khi những lệnh đó vượt xa những gì nó thấy các robot khác thực hiện trước đây. Ví dụ: RT2 có thể di chuyển một lon đồ uống lên ảnh của Taylor Swift khi được yêu cầu – mặc dù hình ảnh của Swift không có trong bất kỳ hình ảnh nào trong số 130.000 hình ảnh minh họa mà nó đã được học trước đó. 

Nói cách khác, tri thức thu thập được từ internet (chẳng hạn như mô tả về hình ảnh của ca sĩ Taylor Swift) đang được chuyển sang hành động của robot. “Rất nhiều tri thức đã được chuyển”, nhà nghiên cứu AI Keerthana Gopalakrishnan ở Google Deepmind cho biết. Việc sử dụng dữ liệu trực tuyến như vậy làm giảm đáng kể việc học hỏi từ nạp dữ liệu vật lý để ứng phó trong các tình huống khác nhau.

Nhưng để hiểu đầy đủ những điều cơ bản về chuyển động vật lý và dự đoán hệ quả của các chuyển động, robot vẫn cần phải học tập từ rất nhiều dữ liệu vật lý. 

Và đó là vấn đề.

Thiếu dữ liệu

Mặc dù các chatbot phổ biến hiện nay đang được đào tạo dựa trên hàng tỷ dữ liệu văn bản, hình ảnh từ trên internet nhưng không có bộ dữ liệu lớn tương tự cho hoạt động của robot. Và việc thiếu dữ liệu này đang là nút thắt lớn của ngành robot. 

Gom dữ liệu từ nhiều nguồn khác nhau (pooling data) là một cách giải quyết. Khazatsky và các đồng nghiệp đã xây dựng DROID2, một bộ dữ liệu nguồn mở tập hợp khoảng 350 giờ dữ liệu video từ một loại cánh tay robot (cánh tay robot Franka Panda 7DoF, do Franka Robotics ở Munich, Đức chế tạo) được người điều khiển, vận hành từ xa, ở 18 phòng thí nghiệm trên khắp thế giới. Camera quan sát bằng mắt robot ghi lại dữ liệu hình ảnh trong hàng trăm môi trường, bao gồm phòng tắm, phòng giặt, phòng ngủ và nhà bếp. Khazatsky cho biết, sự đa dạng dữ liệu trong các môi trường khác nhau này sẽ giúp robot thực hiện tốt các nhiệm vụ có các yếu tố chưa từng gặp trước đây.

Vẫn còn nhiều vấn đề đặt ra trong đào tạo robot, vì cái mà robot cần được huấn luyện là dữ liệu tương tác vật lý. Để phát triển các hoạt động, robot có thể cần rất nhiều loại dữ liệu cảm giác như cảm giác sờ chạm hay cảm nhận về vị trí và chuyển động của cơ thể. Nhưng giờ đây còn chưa có những bộ dữ liệu như thế. 

Phòng thí nghiệm của Keerthana Gopalakrishnan cũng tham gia hợp tác như trên, với cả chục phòng thí nghiệm khác nhau, nhằm tập hợp dữ liệu robot, từ nhiều dạng robot khác nhau, từ cánh tay robot cho đến robot bốn chi. Lý thuyết của hợp tác này là khi robot tương tác vật lý trong thế giới thực sẽ giúp AI vận hành một cơ thể khác – giống như cách mô hình AI học bằng tiếng Anh vẫn có thể giúp tạo ra mô hình ngôn ngữ bằng tiếng Trung, bởi vì các khái niệm ngôn ngữ đều diễn đạt, mô tả về cùng các hiện tượng thực tế như nhau. Điều này có vẻ hiệu quả. Kết quả là, một mô hình, được gọi là RT-X, ra mắt vào tháng 10/2023, thực hiện các tác vụ trong thế giới thực tốt hơn so với các mô hình huấn luyện trên một robot. 

Tương tự như vậy, Covariant, công ty do các nhà nghiên cứu từng ở OpenAI, cũng đang nỗ lực tăng quy mô dữ liệu robot, đã bắt đầu thu thập dữ liệu vào năm 2018 từ 30 phiên bản cánh tay robot trong các kho trên khắp thế giới, tất cả đều chạy bằng phần mềm Covariant. Mô hình Robotics Model 1 (RFM-1) của Covariant tiến xa trong việc thu thập dữ liệu video, bao gồm các chỉ số cảm biến, chẳng hạn như trọng lượng đã được cánh tay robot nâng lên hay lực tác động. Loại dữ liệu này sẽ giúp robot thực hiện các tác vụ như thao tác với một vật thể mềm mại – và về lý thuyết sẽ giúp robot nhận biết cách thao tác, chẳng hạn như không làm bầm một quả chuối.

Covariant đã xây dựng một cơ sở dữ liệu độc quyền bao gồm hàng trăm tỷ token – đơn vị thông tin robot trong thế giới thực – mà Peter Chen, đồng sáng lập của Covariant cho biết là gần bằng với quy mô dữ liệu đã đào tạo GPT-3. Chen cho biết RFM-1 sắp ra mắt và sẽ cho phép người vận hành robot chạy phần mềm của Covariant ra lệnh bằng văn bản hoặc giọng nói các hướng dẫn chung, chẳng hạn như ra lệnh “nhặt táo từ thùng”.

Một cách khác để truy cập cơ sở dữ liệu chuyển động lớn là tập trung vào dạng robot hình người để AI có thể học bằng cách xem video về con người – trong đó có hàng tỷ video trực tuyến. Andrews cho biết, ví dụ: mô hình Project GR00T của Nvidia đang sử dụng video về con người đang thực hiện các tác vụ khác nhau. Việc cho robot học theo, bắt chước con người có tiềm năng rất lớn trong việc huấn luyện robot nhưng rất khó để làm tốt. Ví dụ, video về robot thường đi kèm với dữ liệu về ngữ cảnh và lệnh – nhưng video về hoạt động thực tế của con người lại không như vậy. 

Thực tế ảo

Các nhà nghiên cứu cho biết, cách cuối cùng và đầy hứa hẹn để tìm ra nguồn dữ liệu chuyển động vật lý không giới hạn là thông qua mô phỏng. Nhiều nhà chế tạo robot đang nghiên cứu xây dựng môi trường thực tế ảo 3D mô phỏng thế giới thực, sau đó kết nối với bộ não robot để đào tạo. Thực tế ảo có thể tạo ra lượng dữ liệu khổng lồ và cho phép con người và robot tương tác ảo mà không gặp rủi ro, nguy hiểm hay hao mòn máy móc. Andrews giải thích: “Nếu bạn có một xưởng bàn tay robot và luyện tập cho đến khi các cánh tay robot đạt được sự khéo léo ở mức độ cao, động cơ có thể bị cháy”.

Nhưng để tạo ra có một trình thực tế ảo mô phỏng tốt cũng không hề dễ dàng. Khazatsky cho biết: “Các trình mô phỏng các hành động vật lý nhưng không phải là vật lý hoàn hảo và việc tạo ra các môi trường mô phỏng đa dạng cũng khó như việc thu thập dữ liệu đa dạng”.

Cả hai ông lớn Meta và Nvidia đều đang đặt cược lớn vào mô phỏng để mở rộng quy mô dữ liệu robot và đã xây dựng các thế giới mô phỏng tinh vi: Habitat của Meta và Isaac Sim của Nvidia. Nhờ vào các platform này, robot đạt được số năm kinh nghiệm tương đương hàng năm trời trong vài giờ học và khi đưa vào thử nghiệm, các robot ứng dụng thành công những gì đã được học vào xử lý trong các tình huống mà nó chưa từng gặp phải trong thế giới thực. 

Nhiều nhà nghiên cứu lạc quan rằng các mô hình nền tảng sẽ giúp tạo ra các robot đa năng có thể thay thế sức lao động của con người. Vào tháng hai, Fig, một công ty chế tạo robot ở Sunnyvale, California, đã gọi vốn được 675 triệu USD cho kế hoạch sử dụng các mô hình ngôn ngữ và thị giác do OpenAI phát triển trong robot hình người đa năng. Một video trình diễn, đạt được 4.8 triệu lượt người xem trên mạng xã hội X, cho thấy sau khi được yêu cầu “lấy gì đó để ăn” thì con robot đã biết cầm quả táo đưa lại cho người đối diện. 

Hiện nay người ta vẫn chưa biết rõ robot này được đào tạo như thế nào, chỉ biết là trong video trình chiếu, môi trường xung quanh robot rất thưa vắng. Nếu thêm các yếu tố phức tạp khác vào môi trường có thể khiến robot hành xử nhầm lẫn (giống như ô tô tự lái sử dụng AI cũng đã nhầm khi phân tích tình huống phức tạp).

Rào cản phía trước

Khi cộng đồng nghiên cứu AI phát triển bộ não robot, những nhà chế tạo robot cảnh báo về thách thức phần cứng robot rất phức tạp và dễ hỏng hóc. Giờ đây phần cứng ngày càng phát triển, nhưng “rất nhiều người nhìn vào hứa hẹn của các mô hình nền tảng mà không biết việc triển khai những loại robot này khó đến mức nào”, Chen nói.

Vẫn còn nhiều vấn đề đặt ra trong đào tạo robot, vì cái mà robot cần được huấn luyện là dữ liệu tương tác vật lý. Để phát triển các hoạt động, robot có thể cần rất nhiều loại dữ liệu cảm giác như cảm giác sờ chạm hay cảm nhận về vị trí và chuyển động của cơ thể. Nhưng giờ đây còn chưa có những bộ dữ liệu như thế. 

Chưa kể, từ mô hình vào thực tế còn phải tính đến một vấn đề rất lớn – tính an toàn. Kể từ khi các chatbot sử dụng mô hình ngon ngữ lớn được đưa vào thực tế và bùng nổ đến nay người ta đã thấy nó có thể đưa ra rất nhiều thông tin sai lệch. Thậm chí, các mô hình này cũng có thể bị lừa làm những việc không hề được lập trình để làm, chẳng hạn như hướng dẫn người dùng cách chế tạo bom. Việc “trao” cho mô hình AI vẫn còn chưa phân biệt được tin sai lệch một cơ thể robot có thể mang lại những mối nguy, tối thiểu có thể là làm sai lệnh được giao, hay làm vỡ, hỏng đồ đạc.

Do đó, những nghiên cứu về sử dụng AI một cách an toàn cũng sẽ phải được quan tâm khi phát triển các robot sử dụng AI. Sẽ có một số quy tắc phải đặt ra khi huấn luyện, chẳng hạn như thậm chí không thực hiện các nhiệm vụ liên quan đến tương tác với con người, động vật hoặc các sinh vật sống khác. “Cho đến khi đủ tin tưởng vào robot, vẫn cần người giám sát”, Gopalakrishnan nói.

Dù vậy, con đường phía trước vẫn nhiều hứa hẹn. Gopalakrishnan cho rằng việc kết nối bộ não AI với robot vật lý sẽ dần cải thiện các mô hình, chẳng hạn như giúp chúng suy luận không gian tốt hơn. Rai cho biết, Meta nằm trong số những công ty theo đuổi giả thuyết cho rằng “trí thông minh thực sự chỉ có thể xuất hiện khi một thực thể có thể tương tác trong thế giới của nó”. Một số người cho rằng tương tác trong thế giới thực là điều có thể đưa AI vượt ra ngoài các mô hình học tập và đưa ra dự đoán, để thực sự hiểu biết và suy luận về thế giới xung quanh.

Các công ty vẫn tiếp tục đổ tiền vào nghiên cứu, sẽ còn nhiều cải tiến nữa. Có thể được quan tâm nhất vẫn là có robot thay thế sức lao động của con người, hoặc cũng có thể là phát triển các robot hình người đủ an toàn, có thể giúp việc nhà, nấu bữa tối, làm việc vặt và gấp đồ giặt là… Chỉ là sẽ tốn rất nhiều tiền và rất nhiều thời gian.□

Bảo Như lược thuật 

Nguồn: 

Nature 630, 22-24 (2024)

doi: https://doi.org/10.1038/d41586-024-01442-5

Tác giả