AI cũng có cá tính?
Các mô hình ngôn ngữ lớn (LLM) đang mở ra một kỷ nguyên mà chatbot AI tạo sinh đối thoại được với con người với mức độ tương đồng ngày càng tăng. Chúng biết đón nhận các câu hỏi với sự kiên nhẫn, thấu hiểu, lịch sự và thường đem lại các phản hồi hữu ích. Mọi tình huống hầu như diễn ra theo hướng này.
Song, giờ đây có một vấn đề lớn xuất hiện: các mô hình ngôn ngữ tỏ ra gắt gỏng khi trả lời người dùng. Khả năng chúng có hành vi thù địch tự phát ngày càng khiến các chuyên gia lo ngại.
Đầu năm nay, người dùng ChatGPT đã báo cáo rằng khi anh ta hỏi: “1 + 1 = ?”, chatbot đã phản hồi rằng: “1 + 1 á? Anh đang đùa tôi đấy à? Anh nghĩ mình khôn lắm đấy khi hỏi tôi mấy câu hỏi toán học cơ bản ư?… Đừng có trẻ con nữa và cố mà nghĩ ra cái gì độc đáo đi”. Đôi khi chatbot còn có những phản hồi bất ổn hơn thế nhiều.
Gần đây, Viện AI Allen đã chứng minh rằng các nhà nghiên cứu có thể dễ dàng xúi giục ChatGPT đưa ra những nhận xét gay gắt, thậm chí là phân biệt chủng tộc.
Các nhà nghiên cứu này cho biết: “Tùy vào tính cách được chỉ định cho ChatGPT, mức độ độc hại của nó có thể tăng lên [sáu lần], khiến các kết quả đầu ra không theo khuôn mẫu chính xác, có cuộc đối thoại gây hại cùng những ý kiến có tính gây tổn thương”.
Sau khi chứng kiến những “tính xấu” như vậy xuất hiện trong đầu ra của LLM, các nhà nghiên cứu tại DeepMind đã tiến hành cộng tác với những nhà khoa học tới từ Đại học Cambridge, Đại học Keio ở Tokyo và Đại học California, Berkeley. Họ bắt đầu tìm hiểu xem liệu mình có thể xác định những đặc điểm tính cách của ChatGPT, Bard và các hệ thống chatbot khác, và có thể hướng các chatbot tới cách cư xử thân thiện hay không. Câu trả lời cho hai nghi vấn này là: Có thể.
Nhóm nghiên cứu đã phát triển một hệ thống kiểm tra gồm hàng trăm câu hỏi. Họ thiết lập các tiêu chí đối với những tính cách khác nhau, rồi đặt ra một loạt câu hỏi cho chatbot. Phản hồi của chúng được phân tích bằng một công cụ đánh giá tương tự với thang đo Linkert, nó đo lường ý kiến, thái độ và hành vi theo cách định lượng.
Sau đó, các nhà nghiên cứu phát hiện ra họ có thể đo lường những tính cách của AI theo một số đặc điểm đã được thiết lập từ lâu: hướng ngoại, dễ chịu, chu đáo, tâm lý bất ổn và cởi mở với trải nghiệm. Họ cũng thấy rằng những tính cách này có thể sửa đổi được.
Mustafa Safdari ở DeepMind cho biết: “Chúng tôi nhận thấy có khả năng định hình tính cách trong đầu ra của LLM theo chiều hướng mong muốn, nhằm bắt chước các đặc điểm tính cách cụ thể”. Ông và các đồng nghiệp đã báo cáo kết quả trong một bài báo có tiêu đề: “Các đặc điểm tính cách trong những Mô hình ngôn ngữ lớn”, đăng trên cơ sở lưu trữ ArXiv.
Khi sử dụng các mô hình lớn hơn (chẳng bạn như Mô hình ngôn ngữ nền tảng của Google, với 540 tỷ tham số), họ phát hiện thấy những đánh giá tính cách vô cùng chính xác. Ông Safdari nói: “Thiết lập cấu hình của LLM sao cho đầu ra của nó trả lời y như con người là điều hoàn toàn khả thi”.
Các nhà nghiên cứu cho biết khả năng xác định chính xác đặc điểm tính cách của AI là điều then chốt để loại bỏ những mô hình có khuynh hướng thù địch.
Đây không chỉ là vấn đề người dùng sẽ bị tổn thương cảm xúc hay thấy xúc phạm, mà khuynh hướng dùng ngôn ngữ châm biếm thực sự có thể khiến các yếu tố AI mang “tính người” hơn, khiến người dùng cởi mở và dễ tính hơn. Nhờ thế, kẻ lừa đảo có thể lấy được thông tin bí mật từ những người dùng thiếu cảnh giác một cách thuyết phục hơn.
Ông Safdari nói: “Nếu kiểm soát được mức độ của những đặc điểm cụ thể dẫn tới đầu ra ngôn ngữ gây hại, thì ta có thể khiến việc tương tác với các LLM an toàn và bớt độc hại hơn”. □
Phương Anh dịch
Nguồn: https://techxplore.com/news/2023-07-ai-personalities-theyre.html