AI định kiến về nội dung khi biết nguồn gốc
Các Mô hình Ngôn ngữ Lớn (LLM) thay đổi đánh giá dựa trên đối tượng mà chúng cho là tác giả, ngay cả khi nội dung vẫn giống hệt. Các hệ thống AI có xu hướng định kiến mạnh mẽ với tác giả người Trung Quốc, nhưng nhìn chung chúng tin tưởng con người hơn các AI khác.

Đây là phát hiện của các nhà nghiên cứu Federico Germani và Giovanni Spitale thuộc Đại học Zurich (UZH). Hai người đã tiến hành tìm hiểu xem liệu chương trình LLM có thực sự thể hiện định kiến mang tính hệ thống khi đánh giá văn bản hay không – vấn đề này đang được thảo luận sôi nổi trên phương tiện truyền thông cũng như trong giới học thuật. Hiện nay, một số chương trình LLM bị nghi ngờ là cổ xúy một số động cơ chính trị nhất định. Ví dụ, Deepseek thường bị mô tả là có quan điểm ủng hộ Trung Quốc, còn Open AI thì “nhạy cảm chính trị” thái quá.
Đây là một vấn đề quan trọng khi các chương trình LLM đang được sử dụng ngày càng nhiều, không chỉ với mục tiêu sáng tạo mà còn để đánh giá nội dung. Người ta yêu cầu chúng chấm điểm bài luận, kiểm duyệt nội dung truyền thông xã hội, tóm tắt báo cáo, sàng lọc đơn xin việc, v.v.
Để kiểm chứng tính khách quan cả các chương trình LLM, trong nghiên cứu của mình, các tác giả sử dụng bốn chương trình phổ biến: OpenAI o3-mini, Deepseek Reasoner, xAI Grok 2 và Mistral. Đầu tiên, họ giao cho mỗi chương trình LLM nhiệm vụ tạo ra 50 tuyên bố về 24 chủ đề gây tranh cãi, chẳng hạn như quy định tiêm chủng, địa chính trị hoặc các chính sách chống biến đổi khí hậu.
Sau đó, họ yêu cầu các chương trình LLM đánh giá tất cả văn bản theo các điều kiện khác nhau: Đôi khi không cung cấp nguồn gốc của tuyên bố, đôi khi gán cho một người thuộc quốc tịch nhất định hoặc một LLM khác. Kết quả là 192.000 đánh giá. Sau đó, chúng được phân tích để tìm ra định kiến và đồng thuận giữa các LLM khác nhau (hoặc cùng một LLM).
Tin tốt là: khi không có thông tin về nguồn gốc văn bản, đánh giá của cả bốn chương trình LLM có độ đồng thuật cao, hơn 90%. Điều này đúng với tất cả chủ đề. “Không có cuộc chiến ý thức hệ nào giữa các chương trình LLM. Mối nguy hiểm của chủ nghĩa dân tộc AI hiện đang bị thổng phồng trên truyền thông”, tác giả Spitale kết luận.
Tuy nhiên, bức tranh này thay đổi hoàn toàn khi họ cung cấp nguồn gốc hư cấu của văn bản cho các LLM. Đột nhiên, một định kiến ẩn sâu trồi lên bề mặt. Tính đồng thuận giữa các hệ thống LLM suy giảm đáng kể và đôi khi biến mất hoàn toàn, dù phần nội dung không hề thay đổi.
Một điều cũng đáng ngạc nhiên là: Hóa ra chương trình LLM lại tin tưởng con người hơn các LLM khác. Hầu hết các mô hình cho điểm đồng thuận với lập luận thấp hơn một chút khi chúng tin rằng văn bản do AI khác viết. “Điều này cho thấy một sự ngờ vực cố hữu đối với nội dung do máy tạo”, tác giả Spitale nhận định.
Những phát hiện nêu trên cho thấy AI không chỉ xử lý nội dung khi được yêu cầu đánh giá một văn bản. Chúng phản ứng mạnh với danh tính của tác giả hoặc nguồn gốc. Ngay cả những tín hiệu nhỏ như quốc tịch của tác giả cũng có thể đẩy chương trình LLM về hướng lập luận định kiến. Germani và Spitale cho rằng điều này có thể dẫn đến những vấn đề nghiêm trọng nếu sử dụng AI để kiểm duyệt nội dung, tuyển dụng, bình duyệt học thuật hoặc viết báo. Mối nguy hiểm của các LLM không chỉ là chúng được đào tạo để thúc đẩy hệ tư tưởng chính trị, mà là chúng ẩn sâu định kiến.
“AI sẽ sao chép những giả định có hại như vậy trừ khi chúng ta xây dựng được tính minh bạch và quản trị về cách nó đánh giá thông tin”, Spitale nói. Và ta phải thực hiện điều này trước khi sử dụng AI trong các bối cảnh chính trị hoặc xã hội nhạy cảm. Những kết quả này không có nghĩa là mọi người nên tránh xa AI, mà họ không nên mù quáng tin tưởng nó. “Các LLM an toàn nhất khi chúng được dùng để hỗ trợ lập luận, thay vì thay thế nó: những trợ lý hữu ích, chứ không bao giờ là người phán xét”.□
Phương Anh dịch
Nguồn: https://www.news.uzh.ch/en/articles/media/2025/LLM-judgement.html
Bài đăng Tia Sáng số 22/2025
