AI tuân lệnh con người, có ổn không? (tiếp theo)
Bản hợp xướng thành Paris “Agnus Dei” đến đúng thời điểm quan trọng của AI. Chỉ vài tháng trước, một mạng neuron nhân tạo sử dụng kỹ thuật “học tăng cường” (reinforcement learning) đã gây sốc giới khoa học bằng cách cho máy học từ đầu cách chơi và thắng các game Atari, thậm chí còn sáng tạo các kỹ thuật chơi mới trong lúc học.
Máy móc nên cố gắng tối ưu sự trải nghiệm tổng thể như con người. Nguồn: quantamagazine
Với học tăng cường, AI học cách tối ưu một hàm thưởng, ví dụ điểm trong trò chơi, bằng cách thử và sai nhiều hành động. Và hành động nào làm tăng hàm thưởng sẽ được tăng cường và được lựa chọn nhiều hơn trong những lần chơi tiếp theo. Cách học này của AI rất giống với cách con người học từ môi trường bằng cách thử và sai. Stuart Russel đã phát triển một cách tiếp cận ngược từ năm 1998, một hướng mà ông vẫn tiếp tục hoàn thiện cùng cộng sự là Andrew Ng. Một hệ “học tăng cường ngược” không tìm cách tối ưu hàm thưởng giống như học tăng cường mà nó tìm cách học ra hàm thưởng mà con người đang tối ưu. Trong khi hệ học tăng cường xác định hành động tốt nhất để đạt được mục tiêu thì hệ “học tăng cường ngược” lại tìm cách giải mã mục tiêu là gì khi cho trước một số hành động có thể làm.
Những tình huống giả lập
Vài tháng sau chuyến đi thần thánh đó, Russell nói về “học tăng cường ngược” với Nick Bostrom, một người cũng hết sức nổi tiếng trong giới tại một cuộc họp về quản trị AI tại Bộ Ngoại giao Đức. “Đó là nơi hai thứ kết hợp lại với nhau”, Russel nói. Lúc ở trên tàu điện ngầm, ông đã ngẫm nghĩ là máy móc nên cố gắng tối ưu sự trải nghiệm tổng thể như con người. Chỉ khi đó thì máy tính mới nhận thấy là nó còn chưa hiểu cách làm, nó chưa hiểu con người muốn gì, và nó sẽ làm theo cách “học tăng cường ngược” để hiểu hơn.
Với cách “học tăng cường ngược”, một cỗ máy sẽ cố gắng học ra một hàm thưởng mà con người đang muốn có. Nhưng trên thực tế thì chúng ta cũng sẽ giúp chúng hiểu về chúng ta. Trở lại Berkeley sau kỳ trao đổi, Russell bắt đầu làm việc với các cộng sự để phát triển một phương pháp “học tăng cường ngược có cộng tác”, theo đó robot và con người làm việc cùng nhau để học ra sở thích thực sự của con người trong các thí nghiệm có trợ giúp khác nhau – giả lập các tình huống thực tế với một phần kiến thức che giấu đi.
Họ phát triển một trò chơi gọi là trò chơi “tắt nguồn robot” để chỉ rõ tình huống mà robot tự động có thể không đúng với mục đích của chúng ta: bằng cách vô hiệu hóa công tắc tắt của chính chúng. Alan Turing cũng đã nói đến tình huống này trong một bài giảng trên BBC năm 1951 (một năm sau khi ông xuất bản một bài báo tiên phong về AI) rằng có thể để máy tính ở trạng thái phục vụ, ví dụ như bằng cách tắt nguồn điện vào những thời điểm chiến lược. Các nhà nghiên cứu có thể thấy rằng bài toán đơn giản. Làm thế nào để ngăn không cho robot thông minh khóa nút tắt của nó, hay tổng quát hơn là bỏ qua các câu lệnh ngăn không cho nó tăng hàm thưởng? Trong cuốn Human Compatible (Tương hợp với con người), Russel đã viết rằng bài toán “tắt nguồn robot” là trọng tâm của vấn đề kiểm soát các hệ thống thông minh. “Nếu các robot không cho con người tắt chúng khi con người muốn thì thực sự là vấn đề lớn. Còn nếu có thể được thì chúng ta sẽ điều khiển được chúng”.
Sự bất định trong mục tiêu của con người có thể là chìa khóa như trong bài toán “tắt nguồn robot”, là mô hình giả định với Harriet là người thật và Robbie là robot. Robbie đang quyết định xem có nên đặt một phòng khách sạn đẹp thay cho Harriet hay không. Do thực sự không hiểu Harriet muốn gì lắm nên Robbie ước tính lợi tức là giá trị nào đó giữa -40 và 60, với trung bình là dương 10 (tức là Robbie cũng hơi đoán là Harriet thích căn phòng đẹp này nhưng không chắc lắm). Còn nếu không làm gì thì lợi tức là 0. Và bây giờ lại có một sự lựa chọn thứ ba: Robbie có thể hỏi Harriet có thích để cho nó quyết định hay thích tắt nguồn nó? – tức là không cho nó quyết định. Nếu cô ta để cho robot quyết định thay thì lợi tức kỳ vọng trung bình của Harriet sẽ còn lớn hơn cả dương 10. Và do đó Robbie sẽ quyết định đi hỏi ý kiến Harriet và do vậy, cho Harriet cơ hội tắt nguồn nó.
Russel và cộng sự đã chứng minh được là một cách tổng quát, robot sẽ để cho con người quyết định, trừ khi robot chắc chắn hoàn toàn là con người muốn gì. “Do vậy sự bất định trong mục tiêu chính là điểm mấu chốt giúp chúng ta có cơ hội tắt nguồn máy móc, kể cả khi chúng thông minh hơn con người chúng ta”, Russel viết trong Human Compatible.
Những kịch bản với một phần kiến thức che giấu như vậy được phát triển dưới dạng trò chơi tưởng tượng. Nhưng ở phòng thí nghiệm của Scott Niekum, Đại học Texas, Austin, người ta cho chạy các thuật toán học mục tiêu trên các robot thực. Gemin là một robot có hai cánh tay sẽ quan sát một người đặt một cái nĩa ở bên trái đĩa sắp bàn. Ban đầu robot sẽ không hiểu được là con người muốn đặt các nĩa ở bên trái đĩa hay là muốn đặt nó vào điểm xác định kia trên bàn. Và các thuật toán mới cho phép robot tìm ra quy luật sau một vài lần trình diễn. Niekum tập trung vào việc giúp các hệ thống AI định lượng sự không chắc chắn của chúng họ về sở thích của con người, cho phép robot đánh giá khi nào nó biết đủ để hành động một cách an toàn. “Chúng tôi đang nghiên cứu thẳng vào phân phối của sở thích trong mỗi người. Và chúng tôi cũng đánh giá rủi ro trên các phân phối đó.”, Niekum nói.
Gần đây Niekum và cộng sự đã tìm ra một thuật toán hiệu quả cho phép robot học cách thực hiện những nhiệm vụ tốt hơn con người. Nếu để cho một robot lái xe tự học học đơn giản bằng cách cho nó xem con người lái nhiều lần thì rất tốn nguồn lực tính toán. Nhưng Niekum và cộng sự đã phát hiện rằng có thể tăng tốc độ học lên một cách đáng kể nếu cho robot xem những lần lái xe được đánh giá và xếp loại của con người.
“Robot có thể nhìn vào các xếp loại đó và đặt câu hỏi vì sao cách lái này được xếp hạng này? Rồi hành động gì diễn ra trong các xếp loại cao hơn?” Niekum giải thích. Và phiên bản cuối của thuật toán gọi là Bayesian T-REX (viết tắt của “trajectory-ranked reward extrapolation”) tìm ra các dấu hiệu trong những thí nghiệm được xếp hạng giúp mô tả hàm thưởng mà con người có thể đang hướng tới. Thuật toán cũng tìm cách tính xác suất của các hàm thưởng khác nhau. Robot chạy Bayesian T-REX có thể nhanh chóng tìm ra các quy luật của việc xếp chỗ hay chơi game Atari mặc dù có thể là nó chưa xem một thí nghiệm (lần chơi) nào hoàn hảo cả.
Sự lựa chọn không hoàn hảo của chúng ta
Ý tưởng của Russel đang “dần có chỗ trong giới AI”, theo lời của Yoshua Bengio, giám đốc Viện Mila, một viện nghiên cứu về AI hàng đầu ở Montreal. Bengio nói, cách tiếp cận của Russel khi các hệ AI tìm cách giảm sự không chắc chắn trong mục tiêu của con người có thể được đẩy mạnh với học sâu (“deep learning”) – một phương pháp hiệu quả và là nền tảng của cuộc cách mạng AI. Học sâu cho dữ liệu chạy qua các lớp mạng nơron nhân tạo để tìm ra các quy luật. “Dĩ nhiên là còn cần làm nhiều để biến sự kết hợp này thành hiện thực”, Bengio cho biết.
Russel thấy có hai trở ngại chính. “Một là chính chúng ta cũng hành động không hợp lý nên việc máy học để tìm ra mục tiêu thực sự của chúng ta cũng là khó”. Hệ AI cần phải tìm ra nguyên nhân của các mục tiêu theo cấp độ dài hạn, trung hạn và ngắn hạn của con người, cùng với sự cam kết của con người. Để robot làm cho chúng ta (mà không gây tác hại) thì chúng cần biết cách tìm ra những mạng lưới khó xác định của tiềm thức và những mong muốn khó đoán nhận của con người.
Ngoài ra hành động của chúng ta cũng không phải luôn luôn hướng theo lý tưởng của chúng ta. Con người có thể có rất nhiều các giá trị xung khắc nhau cùng lúc. Vậy thì robot phải tối ưu theo giá trị nào? Để tránh hướng đến những hành động tồi tệ (hay tệ hơn nữa là khuếch đại các hành động đó như các thuật toán của YouTube), thì robot cần làm theo cái mà Russel gọi là mục tiêu siêu hình: mục tiêu về cách thay đổi các mục tiêu có thể chấp nhận hoặc không. “Chúng ta cảm nhận về những thay đổi trong cảm nhận của chúng ta? Robot rất khó có thể làm được như vậy”.
“Chúng tôi không kỳ vọng có thể hiểu rõ về những gì cần làm trong thời gian gần trước mắt hay có ngay câu trả lời hoàn hảo cho nhiều câu hỏi thực nghiệm đang gặp phải”, Christiano cho biết. “Nhưng tôi hy vọng các hệ AI chúng tôi đang xây dựng có thể trả lời được các câu hỏi này tốt như con người và do vậy có thể tích hợp chúng vào các quy trình tương tác lặp lại đang có với con người, trong một ngày nào đó”.
Trong phòng thí nghiệm AI của Stanford. Nguồn: quantamagazine.
Tuy nhiên còn có một vấn đề thứ ba chưa được Russel nhắc đến: mục tiêu của bọn người xấu là gì? Làm sao có thể ngăn chặn robot cộng tác và trợ giúp cho những mục đích bất chính của chúng. Các hệ AI thường tìm cách tránh né những điều cấm đoán như kiểu người giàu tìm các lỗ hổng tính thuế, nên việc cấm chúng làm việc xấu một cách đơn giản có thể không có tác dụng.
Hoặc tệ hơn là: nếu giả sử tất cả chúng ta đều là xấu? YouTube đã cố gắng sửa chữa các thuật toán khuyến nghị và rốt cục là chọn ra những clip phổ biến nhất.
Tuy vậy thì Russel cũng cảm thấy lạc quan. Mặc dù còn cần thêm nhiều thuật toán và nghiên cứu về lý thuyết trò chơi nhưng ông linh cảm rằng những hệ quả xấu sẽ được giảm thiểu bởi các lập trình viên. Và phương pháp đó cũng có thể được áp dụng thành công cho việc “nuôi dạy con trẻ và giáo dục con người, v.v… “Nói cách khác, nếu dạy được robot làm điều tốt thì cũng có thể dạy con người như vậy. Tôi thấy ở đây là cơ hội và có thể dẫn đến những hướng đi tốt”, ông ta nói thêm.□
Nguyễn Quang dịch
Nguồn: https://www.quantamagazine.org/artificial-intelligence-will-do-what-we-ask-thats-a-problem-20200130/