Đầu năm nay, nhà khoa học máy tính Guillaume Cabanac tại Đại học Toulouse (Pháp) nhận thông báo từ Google Scholar rằng một bài báo xuất bản trên Tạp chí Nha khoa Quốc tế (International Dental Journal) đã trích dẫn công bố của ông.
Điều đó gây bất ngờ, vì nghiên cứu của ông về cách phát hiện các bài báo khoa học gian lận thường không liên quan đến ngành nha khoa. "Tôi rất ngạc nhiên khi thấy một tài liệu tham khảo mang tên mình nhưng bản thân lại không hề nhận ra nó," Cabanac kể.
Tiêu đề trong phần trích dẫn khá giống với một bản thảo ông đăng năm 2021 và chưa bao giờ xuất bản chính thức. Tuy nhiên, bài báo kia lại ghi nguồn từ tạp chí Nature và DOI (mã số định danh duy nhất do nhà xuất bản cấp) không dẫn đến bản thảo gốc. "Tôi thực sự lo lắng," Cabanac nói. Ông lập tức nghi ngờ trí thông minh nhân tạo (AI) đã bịa ra trích dẫn này.
Đây chỉ là một ví dụ về vấn đề lạm dụng các mô hình ngôn ngữ lớn (LLM) để tìm kiếm tài liệu, viết bản thảo và định dạng danh mục tham khảo. Đôi khi, các mô hình này tự tạo ra những nguồn tham khảo học thuật không có thực.
Quy mô trích dẫn "ma" đang tăng
Trong nghiên cứu được công bố trên trang arXiv vào tháng Một, các nhà khoa học tại Viện Khoa học và Công nghệ Nara (Nhật Bản) đã phân tích gần 18.000 bài báo gửi đến ba hội nghị khoa học máy tính. Họ phát hiện số tài liệu tham khảo không dẫn đến bất kỳ công bố học thuật có thật nào đã tăng mạnh. Cụ thể, 2,6% số bài báo, tức là gần 470 bài, gửi đến ba hội nghị trong năm 2025 chứa ít nhất một trích dẫn có khả năng bịa đặt (so với mức 0,3% của năm 2024).
Những trích dẫn sai lệch đang làm giảm chất lượng của các tài liệu khoa học.
Gần đây, để ước tính số tài liệu tham khảo giả trong các nghiên cứu đã xuất bản, Tạp chí Nature đã hợp tác với công ty Grounded AI ở Stevenage, Anh. Công ty này phát triển một công cụ AI mang tên Veracity nhằm kiểm tra các tài liệu tham khảo trên các cơ sở dữ liệu học thuật và trên internet, qua đó gắn cờ những tài liệu tham khảo không hợp lệ hoặc không liên quan.
Nature và Grounded AI đã phân tích hơn 4.000 bài báo trên tạp chí, sách, cũng như kỷ yếu hội nghị thuộc mọi lĩnh vực được xuất bản trong năm ngoái từ năm nhà xuất bản hàng đầu: Elsevier, Sage, Springer Nature, Taylor & Francis và Wiley.
Dựa trên số lượng lỗi nghiêm trọng (như sai tiêu đề, sai mã DOI, thiếu tác giả), Grounded AI xếp hạng mức độ rủi ro cho mỗi bài báo. Sau khi dùng công cụ để phát hiện, Nature kiểm tra thủ công 100 bài báo khả nghi nhất và xác nhận 65 bài chứa ít nhất một trích dẫn không tồn tại.
Nếu tỷ lệ 65 trên 4.000 bài báo này đúng với toàn bộ kho tàng học thuật, thì với khoảng 7 triệu bài báo khoa học đã được công bố trong năm 2025 sẽ có hơn 110.000 bài báo chứa các nguồn tham khảo giả mạo.
Một số nhà nghiên cứu lo ngại vấn đề sẽ sớm vượt khỏi tầm kiểm soát. "Chúng ta đang chứng kiến một làn sóng trích dẫn giả mạo tràn lan," Alison Johnston, nhà khoa học chính trị tại Đại học Bang Oregon, Corvallis, Mỹ, nhận định.
Từ nhầm lẫn đến bịa đặt
Lỗi trích dẫn không phải là điều mới mẻ trong lĩnh vực xuất bản. "Trước khi có AI tạo sinh, chúng ta đã gặp nhiều trích dẫn thiếu chính xác," Mohammad Hosseini, nhà nghiên cứu đạo đức và liêm chính học thuật tại Trường Y Feinberg thuộc Đại học Northwestern, Chicago, Mỹ, nhận định. Nhưng các lỗi phổ biến thường là viết sai tên tác giả, sai năm xuất bản, sai tiêu đề tạp chí hoặc mã DOI. Ngoài ra cũng có tình trạng nội dung trích dẫn không khớp với tài liệu gốc.
Nhưng "giờ đây, vấn đề không chỉ dừng lại ở sự thiếu chính xác, mà là trích dẫn giả. Đó là những trích dẫn bịa đặt hoàn toàn, một vấn đề ở cấp độ hoàn toàn khác," Hosseini nhấn mạnh.
Nhiều nhà xuất bản nói với tạp chí Nature rằng họ nhận thấy số lượng trích dẫn ma đang có xu hướng tăng lên trong các bản thảo gửi về, buộc họ phải triển khai những biện pháp ngăn chặn.
Trích dẫn bịa đặt có thể là dấu hiệu cho thấy toàn bộ bài báo là giả mạo. Ảnh: CC
Johnston, biên tập viên chính của tạp chí Review of International Political Economy (RIPE), tiết lộ bà đã từ chối 25% trong số khoảng 100 bài gửi đến hồi tháng Một vì chứa nguồn tham khảo giả mạo. Bà sử dụng phần mềm phát hiện đạo văn iThenticate để tìm những điểm bất thường, sau đó kiểm tra thủ công các tài liệu tham khảo nghi vấn.
Nhà xuất bản Frontiers đã phát triển công cụ AI nội bộ để cảnh báo các vấn đề dẫn nguồn những công trình không liên quan, bài báo đã bị rút lại và trích dẫn giả mạo, ngay khi tác giả nộp bản thảo. "Qua kiểm tra, chúng tôi phát hiện khoảng 5% số bản thảo tiềm tàng các vấn đề liên quan đến tài liệu tham khảo," Elena Vicario, người đứng đầu bộ phận liêm chính khoa học của Frontiers, cho biết.
Các thử nghiệm sử dụng chatbot AI để viết bài báo khoa học đã tiết lộ tần suất và loại lỗi trích dẫn mà các mô hình ngôn ngữ lớn thường mắc phải. Trong nghiên cứu được công bố trên tạp chí JMIR Ment Health vào tháng 11/2025, các nhà khoa học tại Đại học Deakin, Úc, yêu cầu mô hình GPT-4o của OpenAI viết sáu bài đánh giá tổng hợp về ba chứng rối loạn tâm thần và phân tích 176 trích dẫn trong đó. Họ phát hiện gần 20% là tài liệu tham khảo ma và hoàn toàn không liên quan đến nghiên cứu. Trong số những tài liệu tham khảo tương ứng với các ấn phẩm có thật, 45% vẫn chứa những lỗi sai, thường là mã DOI không hợp lệ.
Các nhà nghiên cứu chỉ ra rằng "trích dẫn ma" do AI tạo ra thường chắp vá, với những mảnh ghép thông tin từ nhiều công trình có thật. Giới khoa học gọi những tài liệu tham khảo như vậy là các trích dẫn "Frankenstein", do cách chúng được lắp ghép gợi liên tưởng đến con quái vật hư cấu trong truyện.
Mặc dù nhiều lỗi rõ ràng là do AI gây ra, nhưng một số lỗi khác thì không dễ xác định. Trong bối cảnh hiện nay, có những lỗi do con người và có những lỗi do máy móc, và chúng thường chồng chéo lên nhau.
Các nhà xuất bản xem xét rút bài nếu chứa trích dẫn "ma"
Nhiều chuyên gia cảnh báo, dù có các công cụ phát hiện trích dẫn giả mạo, vẫn cần con người kiểm tra thủ công. Một số công ty như GPTZero đang hợp tác với các hội nghị lớn như hội nghị khoa học quốc tế về AI và học máy ICLR 2026 để sàng lọc bản thảo. Năm ngoái, họ quét hơn 700.000 trích dẫn và phát hiện 9.000 trường hợp cần kiểm tra lại. Ban tổ chức ICLR 2026 cho biết đã từ chối tất cả những bản thảo được phát hiện có chứa tài liệu tham khảo giả, tuy nhiên không cho biết chính xác số lượng.
Sự xuất hiện của các trích dẫn giả không chỉ gây nhầm lẫn và cản trở nỗ lực của các nhà nghiên cứu khác mà còn làm xói mòn niềm tin vào khoa học. Giới học thuật đang thảo luận liệu có nên xem các trích dẫn giả là một dạng sai phạm trong nghiên cứu hay không và nếu có thì trong những trường hợp nào.
Hosseini và một số chuyên gia cho rằng, nếu các trích dẫn giả mạo đóng vai trò như dữ liệu trực tiếp củng cố kết luận của bài báo, thì đó chính là hành vi ngụy tạo dữ liệu.
Ngay cả khi các trích dẫn giả không ảnh hưởng đến kết quả nghiên cứu và việc sử dụng AI đã tuân thủ quy định của tạp chí, thì tạp chí vẫn phải đưa ra thông báo đính chính công khai. Mỗi trích dẫn giả mạo là một lỗ hổng trong kho tàng tri thức mà ai đó sẽ phải mất công xử lý sau này.
Trong một số trường hợp, các trích dẫn bịa đặt có thể là dấu hiệu cho thấy toàn bộ bài báo là ngụy tạo, dù do cá nhân hay do các "đầu nậu" khoa học thực hiện. Các nhà xuất bản hiện đang thắt chặt quy trình, yêu cầu tác giả công khai việc sử dụng AI và duy trì sự giám sát của con người đối với mọi nội dung do máy móc tạo ra.
SAGE Publishing và Taylor & Francis cho biết khi phát hiện trích dẫn giả, họ có thể từ chối bản thảo hoặc yêu cầu chỉnh sửa nếu lỗi không ảnh hưởng đến các kết quả và không cho thấy dấu hiệu sai phạm nghiêm trọng hơn. Trong khi đó, Wiley thông tin rằng "các vấn đề nhỏ có thể được chuyển lại cho tác giả để làm rõ". Còn Springer Nature sẽ rút lại các bài báo nếu phát hiện chúng chứa tài liệu tham khảo giả.
Quốc Hùng lược dịch
---
Nguồn:
Hallucinated citations are polluting the scientific literature. What can be done? Nature. https://www.nature.com/articles/d41586-026-00969-z