MuZero có khả năng chơi game thành thạo mà không cần biết luật chơi
Albert Einstein từng nói rằng, “bạn phải học luật chơi, và sau đó bạn phải chơi giỏi hơn bất kỳ ai khác”. Đây có thể cũng chính là khẩu hiệu ở công ty DeepMind, khi một báo cáo mới cho thấy họ đã phát triển được một phần mềm có khả năng chơi thành thạo các trò chơi phức tạp mà thậm chí không cần biết luật chơi của các trò đó.
Là một công ty con của Alphabet, trước đó DeepMind đã đạt được những bước tiến đột phá khi sử dụng phương pháp học tăng cường (reinforcement learning) để huấn luyện các chương trình máy tính thành thạo trò chơi cờ vây của Trung Quốc, cờ Shogi của Nhật Bản, cũng như cờ vua và trò chơi điện tử đầy thách thức Atari. Trong những lần này, máy tính được cho biết trước luật chơi của các trò chơi.
Tuy nhiên, một công bố trên tạp chí Nature gần đây cho biết chương trình máy tính MuZero của công ty DeepMind đã đạt được thành tựu tương tự – và trong một số trường hợp còn thắng thế so với các chương trình trước đó – chương trình này không cần phải học luật chơi từ trước.
Để đạt được điều này, các lập trình viên tại DeepMind đã dựa vào nguyên tắc “tìm kiếm trước”. Theo cách tiếp cận này, MuZero sẽ đánh giá một số nước đi tiềm năng dựa trên cách phản công của đối thủ. Mặc dù số lượng nước đi tiềm năng có thể rất lớn trong các trò chơi phức tạp như cờ vua, MuZero vẫn sẽ ưu tiên các nước đi phù hợp và có khả năng xảy ra nhất, thông qua việc học hỏi những nước đi thành công và tránh những nước đi thất bại.
Theo các nhà nghiên cứu, khi đối đầu với nhân vật Ms. Pac-Man trong chơi điện tử Atari, MuZero chỉ nghiên cứu được sáu hoặc bảy bước đi tiềm năng, tuy nhiên vẫn có một màn thi đấu hết sức đáng ngưỡng mộ.
“Đây là lần đầu tiên chúng tôi thực sự có một hệ thống có khả năng xây dựng những hiểu biết riêng về cách thế giới vận hành và sử dụng những hiểu biết ấy để thực hiện việc lập kế hoạch trước một cách tinh vi như chúng ta đã thấy trước đây trong các trò chơi như cờ vua”, David Silver, nghiên cứu viên cao cấp của DeepMind cho biết. MuZero có thể “bắt đầu từ con số không, và chỉ bằng cách thử và sai, sẽ khám phá ra luật chơi và sử dụng luật chơi đó để thi đấu một cách phi thường”.
Silver còn hình dung ra những khả năng ứng dụng tuyệt vời hơn nữa của MuZero trong cuộc sống chứ không chỉ đơn thuần trong các trò chơi. Chẳng hạn như việc nén video, một công việc đầy khó khăn do video có vô vàn các định dạng và các cách thức nén khác nhau, tuy nhiên, cũng đã có một số tiến bộ. Cho đến nay, khả năng nén này đã được cải thiện thêm khoảng 5%. Đây là thành tích không tồi đối với một công ty thuộc Google – cũng đang xử lý bộ nhớ cache khổng lồ của các video trên trang web phổ biến thứ hai thế giới là YouTube, nơi có hàng tỷ giờ nội dung được xem hằng ngày (trang web phổ biến nhất là Google).
Silver cũng cho biết, phòng thí nghiệm cũng đang xem xét việc lập trình robot và thiết kế cấu trúc protein, từ đó hứa hẹn việc có thể sản xuất ra các loại thuốc được cá thể hóa cho từng người.
Theo Wendy Hall, giáo sư khoa học máy tính tại đại học Southampton và là thành viên của hội đồng AI của Anh, đây là một “bước tiến quan trọng”. “Kết quả nghiên cứu của DeepMind hoàn toàn đáng kinh ngạc và tôi tự hỏi họ sẽ có thể làm được những gì trong tương lai với những nguồn lực mà họ sẵn có”, bà nói.
Tuy nhiên, bà cũng bày tỏ mối lo ngại về khả năng công nghệ này sẽ bị lạm dụng. “Điều tôi lo lắng là trong khi không ngừng cải tiến các thuật toán và ứng dụng các kết quả của nó vì lợi ích của xã hội thì các nhóm ở DeepMind lại không nỗ lực suy nghĩ nhiều như vậy về những hậu quả không mong muốn mà những nghiên cứu của họ có thể đem lại”, bà nói.
Trên thực tế, Không quân Hoa Kỳ đã sử dụng các tài liệu nghiên cứu ban đầu về MuZero được công bố vào năm ngoái để thiết kế ra một hệ thống AI có khả năng phóng tên lửa từ máy bay do thám U-2 đến các mục tiêu cụ thể.
Khi được hỏi về suy nghĩ của mình đối với những ứng dụng như vậy trong quân sự, Silver cũng bày tỏ lo lắng.
“Tôi phản đối việc sử dụng AI trong bất kỳ loại vũ khí giết người nào, và tôi ước rằng chúng ta đã nỗ lực hơn trong việc cấm các loại vũ khí đó”, ông nói và cho biết thêm, DeepMind và những người đồng sáng lập đều đã ký vào Cam kết về vũ khí giết người tự động – khẳng định rằng các công nghệ như vậy sẽ luôn luôn phải nằm dưới sự kiểm soát của con người chứ không phải các thuật toán dựa trên AI.
Theo Silver, những thách thức trước mắt là làm sao để hiểu được và triển khai được các thuật toán một cách hiệu quả như bộ não của con người. “Chúng ta nên đặt mục tiêu thực hiện được điều này. Và bước đầu tiên trong hành trình đó là cố gắng để hiểu được ý nghĩa của việc đạt được trí tuệ là gì”, ông nói. “Chúng tôi nghĩ rằng điều này thực sự cần thiết trong việc đa dạng hóa những gì AI có thể làm được. Bởi không ai đưa cho chúng ta những cuốn sách về luật chơi và nói rằng ‘ồ, đây chính là cách thế giới vận hành'”, Silver nói. “Nếu chúng ta muốn AI có thể đi vào cuộc sống và có khả năng lập kế hoạch cũng như nhìn thấy các vấn đề mà không ai cho chúng ta biết trước, chúng ta thực sự rất cần điều này”.
Mỹ Hạnh tổng hợp
Nguồn: https://techxplore.com/news/2020-12-deepmind-muzero-conquers.html
https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules