![]() |
Các chatbot AI được cung cấp dữ liệu chất lượng thấp bỏ qua các bước trong quy trình suy luận hoặc hoàn toàn không suy luận. Ảnh: Alamy |
Khả năng thu thập thông tin chính xác và lập luận của các chatbot AI sẽ suy giảm khi được đào tạo bằng một lượng lớn nội dung chất lượng thấp - được định nghĩa là các bài đăng ngắn, phổ biến trên mạng xã hội, hoặc chứa nội dung hời hợt hoặc giật gân, theo một bản in trước đăng trên arXiv gần đây.
Các nhà khoa học đã sử dụng một triệu bài đăng công khai trên nền tảng mạng xã hội X để huấn luyện các mô hình nguồn mở là Llama 3 của Meta và ba phiên bản của Qwen do Alibaba phát triển, nhằm xem xét cách những dữ liệu này ảnh hưởng đến quá trình lập luận của mô hình, việc thu thập thông tin từ các dữ liệu đầu vào dài, đạo đức của phản hồi và các đặc điểm tính cách của mô hình.
Kết quả là các mô hình được cung cấp dữ liệu chất lượng thấp bỏ qua các bước trong quy trình suy luận hoặc hoàn toàn không suy luận, khiến chúng cung cấp thông tin không chính xác về một chủ đề hoặc chọn sai câu trả lời cho một câu hỏi trắc nghiệm. Sử dụng một bảng câu hỏi tâm lý, các nhà khoa học phát hiện các đặc điểm tiêu cực trong "tính cách" của các mô hình cũng tăng lên, bao gồm cả chứng rối loạn nhân cách chống đối xã hội. Trong các tập dữ liệu có cả dữ liệu rác và dữ liệu chất lượng cao, tác động tiêu cực lên suy luận tăng khi tỷ lệ dữ liệu rác tăng.
Những phát hiện này một lần nữa nhấn mạnh tầm quan trọng của chất lượng dữ liệu, nhà nghiên cứu AI Mehwish Nasim, Đại học Tây Australia, cho biết. "Ngay cả trước khi con người bắt đầu làm việc trên các mô hình ngôn ngữ lớn, chúng ta vẫn thường nói rằng, nếu bạn đưa rác vào một mô hình AI, nó sẽ tạo ra rác".
Nguồn: nature.com
Tin đăng KH&PT số 1369 (số 45/2025)
Đinh Hương và nhóm tác giả lược dịch
