Giúp robot học tập thông qua phản hồi của con người
Để hỗ trợ con người tốt nhất trong thực tế, robot cần có khả năng liên tục tiếp thu các kỹ năng mới hữu ích trong môi trường năng động và thay đổi nhanh chóng. Tuy nhiên, hiện tại, hầu hết robot chỉ có thể thực hiện các nhiệm vụ đã được huấn luyện từ trước, chúng chỉ có các khả năng mới sau khi được huấn luyện thêm.
Các nhà nghiên cứu tại Đại học Washington và Viện Công nghệ Massachusetts (MIT) vừa giới thiệu một phương pháp cho phép robot học các kỹ năng mới, bằng cách huấn luyện robot sử dụng phản hồi của con người và thông tin thu thập được trong quá trình khám phá môi trường xung quanh.
“Trong nghiên cứu trước đây, chúng tôi đã sử dụng phản hồi từ cộng đồng (có khả năng không chính xác) được thu thập từ hàng trăm người trên khắp thế giới để dạy robot cách thực hiện một số nhiệm vụ nhất định mà không cần dựa vào thông tin bổ sung”, Max Balsells – đồng tác giả nghiên cứu, cho biết.
Dù đạt được những kết quả hứa hẹn song phương pháp do Balsells và các cộng sự đề xuất cần liên tục thiết lập lại. Nói cách khác, mỗi lần robot cố gắng hoàn thành một nhiệm vụ, môi trường xung quanh và các cài đặt của nó phải trở lại như trước khi thử nghiệm.
“Đây là một vướng mắc, vì chúng tôi muốn robot học được bất kỳ nhiệm vụ nào mà càng có ít sự can thiệp của con người càng tốt”, Balsells cho biết. “Do vậy, trong nghiên cứu mới, chúng tôi đã tìm cách khắc phục vấn đề này, cho phép robot học tập trong môi trường luôn thay đổi, dựa trên phản hồi của con người, cũng như dựa trên việc khám phá ngẫu nhiên và khám phá có hướng dẫn”.
Phương pháp mới do Balsells và các đồng nghiệp phát triển có ba phần chính, được đặt tên lần lượt là: mô hình chính sách, mô hình bộ chọn mục tiêu và mô hình mật độ, mỗi thành phần được hỗ trợ bởi một kỹ thuật học máy khác nhau.
Về cơ bản, mô hình đầu tiên sẽ xác định các hành động mà robot cần thực hiện để đến một vị trí hoặc đạt được mục tiêu cụ thể. Ngược lại, mô hình thứ hai (tức bộ chọn mục tiêu) hướng dẫn robot trong khi nó vẫn đang học, thông báo thời điểm nó gần đạt được mục tiêu đặt ra.
“Chúng ta có thể sử dụng mô hình này để hướng dẫn robot bằng cách ra lệnh thực hiện các tình huống gần đạt nhiệm vụ hơn mà nó đã thấy. Từ đó, robot có thể thực hiện các hành động ngẫu nhiên để khám phá thêm phần đó của môi trường xung quanh. Nếu không có mô hình này, robot sẽ làm những hành động vô nghĩa”, Balsells chia sẻ.
“Cuối cùng, mục tiêu của mô hình thứ ba (tức mô hình mật độ) là để xem robot đã biết cách thực hiện một tình huống nhất định từ trạng thái hiện tại hay chưa”, Balsells nói. “Mô hình này rất quan trọng trong việc đảm bảo mô hình thứ hai đang hướng dẫn robot các tình huống mà robot có thể thực hiện. Mô hình thứ ba được huấn luyện dựa trên dữ liệu thể hiện quá trình tiến triển từ các tình huống khác nhau đến các tình huống mà robot đã hoàn thành”. Điều này thúc đẩy việc học thông qua khám phá, đồng thời giảm thiểu rủi ro xảy ra sự cố và sai sót.
Đáng chú ý, phương pháp mới do Balsells và các đồng nghiệp đề xuất chỉ dựa vào phản hồi của con người để hướng dẫn robot trong quá trình học, chứ không cầm tay chỉ việc cụ thể cách thực hiện các nhiệm vụ. Do đó, nó không cần bộ dữ liệu mở rộng bao gồm các đoạn phim làm mẫu, như vậy việc học của robot sẽ linh hoạt hơn và cần ít sự can thiệp của con người hơn.
Marcel Torne, đồng tác giả nghiên cứu, cho biết: “Điều quan trọng nhất của phương pháp này là bất cứ ai cũng có thể dạy robot cách giải quyết một nhiệm vụ chỉ bằng cách kết nối nó với internet và để nó tự chạy, mọi người trên khắp thế giới có thể kịp thời hướng dẫn nó thời điểm nào gần đạt được mục tiêu hơn”.
Balsells, Torne và các đồng nghiệp đang có kế hoạch mở rộng phương pháp của nhóm, bằng cách cung cấp cho robot một số “nguyên tắc” hoặc hướng dẫn cơ bản về cách thực hiện một số kỹ năng cụ thể.□
Lan Oanh lược dịch
Nguồn: https://techxplore.com/news/2023-11-approach-robots-environments-human-feedback.html