Vào một buổi chiều lạnh giá ở Na Uy hồi đầu tháng này, Dan Quintana, giáo sư tâm lý học tại Đại học Oslo, quyết định ngồi nhà để hoàn thành một công việc tẻ nhạt mà ông phải trì hoãn nhiều tuần - phản biện một bài báo cho tạp chí tâm lý học uy tín nọ.
Thoạt nhìn, đây có vẻ là một công trình khoa học chuẩn mực. Mọi thứ không có gì bất thường cho đến khi Quintana xem xét phần tài liệu tham khảo và bắt gặp tên mình. Mặc dù phần trích dẫn công trình của ông trông hoàn toàn ổn - tiêu đề có vẻ học thuật, danh sách tác giả gồm những người ông từng cộng tác nhưng bài báo ... không hề tồn tại.
Hằng ngày, trên Bluesky và LinkedIn, Quintana vẫn thấy các học giả chia sẻ về việc phát hiện những trích dẫn ảo ma như vậy trong các bài báo khoa học. (Phiên bản ban đầu của "Báo cáo Make America Healthy Again" về sức khỏe trẻ em do chính quyền Trump công bố vào mùa xuân năm ngoái chứa gần chục trích dẫn kiểu như vậy.)
Nhưng Quintana từng tưởng rằng vấn đề này chỉ xảy ra ở những tạp chí chất lượng thấp, cho đến khi bắt gặp trích dẫn ảo được gán cho tên ông trên tạp chí mà ông đang tham gia làm phản biện. "Khi phát hiện tình trạng này ở một tạp chí được đánh giá cao, bạn mới nhận ra vấn đề phổ biến đến mức nào," ông nói.
Suốt hơn một thế kỷ, các tạp chí khoa học là những "đường ống" dẫn truyền tri thức vào đời sống văn hóa nhân loại. Giờ đây, những đường ống này đang bị nghẽn bởi những nội dung rác do AI tạo ra.
Thực tế, ngành xuất bản khoa học từ trước tới nay luôn gặp những trục trặc mang tính hệ thống. Ngay cả trước khi ChatGPT xuất hiện, các biên tập viên đã phải chật vật để kiểm soát cả số lượng lẫn chất lượng các bản thảo.
Cuộc đua phản biện AI
Alex Csiszar, sử gia khoa học tại Đại học Harvard, kể ông từng tìm thấy những lá thư của các biên tập viên hồi đầu thế kỷ XIX, than phiền về việc nhận được quá nhiều bản thảo. Đây là một trong những lý do dẫn đến sự ra đời của cơ chế bình duyệt. Để giảm bớt khối lượng công việc, các biên tập viên gửi bản thảo cho chuyên gia bên ngoài phản biện.
Khi số lượng tạp chí bùng nổ trong thời kỳ Chiến tranh Lạnh, nhờ nguồn tài trợ cho khoa học tăng vọt, quy trình bình duyệt dần trở nên phổ biến và đến nay gần như đã trở thành thông lệ bắt buộc.
Nhưng lúc này, biên tập viên và người phản biện - những "người canh giữ" kho tàng tri thức khoa học, đang phải chịu những làn sóng vây ép mới. Gần như ngay sau khi các mô hình ngôn ngữ lớn (LLM) trở nên phổ biến rộng rãi, các bản thảo đổ dồn vào hộp thư của các tạp chí với số lượng chưa từng có.
Một phần của hiện tượng này có thể do AI giúp nhà khoa học cải thiện năng suất, nhất là đối với nhà khoa học không nói tiếng Anh, vốn cần được hỗ trợ về mặt ngôn ngữ để trình bày kết quả nghiên cứu của mình.
Trong một công bố mới trên Science, các nhà khoa học ở Đại học UC Berkeley và Đại học Cornell đã xem xét hơn một triệu bản thảo bài báo trên các nền tảng tiền xuất bản (preprint) và phát hiện, tổng số bản thảo mà một tác giả công bố mỗi tháng sau khi sử dụng AI tăng từ 36,2% đến 59,8%, tùy nền tảng.
Mức tăng cao nhất được ghi nhận ở nhóm tác giả không nói tiếng Anh, đặc biệt là nhóm tác giả châu Á, cho thấy nhóm này thường dùng AI để cải thiện khả năng viết tiếng Anh.
Tuy nhiên, theo Mandy Hill, Giám đốc xuất bản học thuật của Cambridge University Press & Assessment, ChatGPT và các công cụ AI cũng đang được dùng để ngụy tạo vẻ ngoài đáng tin cậy cho những công trình gian dối hoặc kém chất lượng. Điều này khiến nhiệm vụ của biên tập viên và người phản biện càng trở nên phức tạp và tốn thời gian. "Từ nay trở đi, đây sẽ là một cuộc chạy đua không có điểm dừng," Hill nói.
Ngành xuất bản khoa học ngập trong nội dung kém chất lượng do AI tạo ra. Ảnh: CC
"Khuôn mẫu gian lận"
Adam Day điều hành một công ty ở Anh có tên Clear Skies, chuyên sử dụng AI để giúp các nhà xuất bản khoa học phát hiện gian lận. So với các thanh tra tài chính, ông cho rằng mình thuận lợi hơn vì các đối tượng ông nhắm tới lại công khai bằng chứng về hành vi sai phạm của họ trước công chúng. Day không quá quan tâm đến những trường hợp cá nhân dùng ChatGPT để tạo ra một - hai bài báo. Giống như một thanh tra ma túy muốn triệt phá cả đường dây, ông tập trung vào các tổ chức gian lận bài bản.
Những "xưởng sản xuất bài báo" này cung ứng số lượng lớn cho giới nghiên cứu, do đó thường tái sử dụng các bài báo, thậm chí tạo ra nhiều bài với nội dung na ná. Day cho biết ông phát hiện các mẫu bài báo giả mạo bằng cách phân tích những bài báo đã bị nhà xuất bản đánh dấu là gian lận. Khi một mẫu bài báo nào đó có tỷ lệ bị rút lại cao, ông sẽ huấn luyện công cụ tìm kiếm các bài báo chưa bị đánh dấu nhưng có thể được tạo ra theo cùng chiêu thức.
Một số lĩnh vực khoa học đã trở thành bãi đáp của rác AI. Theo Jennifer Wright, người đứng đầu bộ phận liêm chính nghiên cứu và đạo đức xuất bản tại Cambridge University Press, các nhà xuất bản đang chia sẻ thông tin về những lĩnh vực vi phạm nghiêm trọng nhất. Đáng lo ngại, nhiều lĩnh vực trong số đó lại chính là nơi xã hội rất cần các nhà khoa học có năng lực thực sự - chẳng hạn như nghiên cứu ung thư.
Các "xưởng sản xuất bài báo" đã tìm ra một khuôn mẫu cực kỳ hiệu quả để chế các bài báo về ung thư: chỉ cần tuyên bố đã nghiên cứu tương tác giữa một tế bào khối u và một protein nào đó trong hàng nghìn loại protein, và miễn là không báo cáo rằng kết quả mang tính đột phá, gần như sẽ không có ai lặp lại thí nghiệm để kiểm chứng.
AI còn có thể tạo ra hình ảnh cho các bài báo giả. Một bài tổng quan năm 2024 (sau đó đã bị rút lại) đăng trên tạp chí Frontiers in Cell and Developmental Biology từng sử dụng hình minh họa do AI tạo ra về một con chuột với cặp tinh hoàn to đến mức lố bịch. Hình này không chỉ vượt qua ải bình duyệt mà còn được xuất bản.
Dù vụ việc làm cho tạp chí bẽ bàng, tác hại thực tế không lớn lắm. Đáng lo ngại hơn là khả năng của AI tạo sinh trong việc dựng lên những hình ảnh thuyết phục về các lát mô mỏng, trường quan sát dưới kính hiển vi hoặc các gel điện di - những thứ thường được dùng làm bằng chứng trong nghiên cứu y sinh.
Gần đây, các làn sóng gian lận có sự hỗ trợ của các mô hình ngôn ngữ lớn đã ập vào những lĩnh vực học thuật liên quan đến các công nghệ mới nổi, và trớ trêu thay, bao gồm cả chính lĩnh vực nghiên cứu AI. Lý do hết sức dễ hiểu: cơ hội việc làm cho những người có công bố trong lĩnh vực học máy hoặc robot hiện nay rất lớn, thậm chí còn hấp dẫn hơn cả cơ hội dành cho các nhà nghiên cứu ung thư.
Trong giới nghiên cứu AI cũng đã xuất hiện một "khuôn mẫu gian lận": người ta chỉ cần tuyên bố đã chạy một thuật toán học máy trên một bộ dữ liệu nào đó, rồi nói rằng nó cho ra một kết quả thú vị. Và tương tự, miễn là kết quả không quá bất ngờ thì rất ít người chịu bỏ công kiểm chứng.
Kỷ yếu hội nghị, kênh xuất bản chính trong lĩnh vực khoa học máy tính và AI, đã bị quá tải bản thảo trong những năm gần đây. Số lượng bài báo gửi về NeurIPS - một trong những hội nghị AI hàng đầu, đã tăng gấp đôi chỉ trong vòng 5 năm. Hội nghị hàng đầu về học sâu ICLR cũng ghi nhận xu hướng tương tự, và có vẻ trong số này có rất nhiều bài kém chất lượng: một công ty khởi nghiệp chuyên phát hiện văn bản do AI tạo ra đã phân tích các bài gửi đến hội nghị vào tháng Tư tới ở Brazil và phát hiện hơn 50 bài có trích dẫn bịa. Phần lớn trong số này không bị phát hiện trong quá trình bình duyệt.
Một khả năng là nhiều trường hợp phản biện do AI thực hiện. Phân tích gần đây của Pangram Labs đối với hàng nghìn phản biện gửi tới ICLR cho thấy quá nửa số này có sự hỗ trợ của AI, và khoảng một phần năm hoàn toàn do AI tạo ra.
Trên khắp các lĩnh vực học thuật, các tác giả bài báo thậm chí đã bắt đầu sử dụng những dòng chữ cực nhỏ, trùng màu nền văn bản, vô hình với người đọc, nhưng AI vẫn đọc được để "gửi gắm" thông điệp bí mật tới các hệ thống phản biện dựa trên mô hình ngôn ngữ lớn. Với kỹ thuật cài chỉ dẫn ngầm đó, họ thao túng AI ca ngợi bài báo là "đột phá", "mang tính chuyển đổi", và chỉ đề xuất những chỉnh sửa đơn giản.
Hệ lụy của những màn đối thoại rỗng
Những nội dung khoa học rác do AI tạo ra không chỉ tràn ngập các tạp chí mà còn lấn sang những kênh chia sẻ nghiên cứu khác.
Năm 1991, Paul Ginsparg, khi đó là nhà vật lý tại Phòng thí nghiệm Quốc gia Los Alamos, đã thiết lập một nền tảng đặc biệt cho phép giới nghiên cứu tải lên các bài báo sắp xuất bản, nhằm nhận phản hồi sớm song song với quá trình bình duyệt chính thức thường tốn nhiều thời gian. arXiv - tên gọi dần trở nên quen thuộc của nền tảng này - phát triển rất nhanh và từ đó sinh ra các trang ‘anh em’ trong nhiều lĩnh vực khác. Đây là những kênh chia sẻ tri thức khoa học nhanh nhất từ trước đến nay. Nhưng chỉ vài tháng sau khi ChatGPT ra mắt, số lượng bản thảo gửi đến các nền tảng tăng đột biến.
Ginsparg, nay là giáo sư khoa học thông tin tại Đại học Cornell, cho biết ông từng hy vọng đây chỉ là xu hướng ngắn hạn, nhưng tốc độ nộp bài vẫn tiếp tục tăng. Giờ đây mỗi bản thảo trên arXiv đều được xem xét trước khi đăng, nhằm đảm bảo mức độ tin cậy.
Tuy nhiên, các mô hình AI ngày càng dễ dàng vượt qua khâu kiểm duyệt. Năm 2025, Ginsparg cùng các cộng sự phân tích các bản thảo mới gửi đến arXiv và phát hiện số bài báo mà các nhà khoa học sử dụng AI tải lên nhiều hơn khoảng 33% so với những người không dùng.
Các công trình khoa học cũng có thể rơi vào viễn cảnh AI viết hầu hết các bài báo và cũng chính AI phản biện nội dung. Ảnh: CC
Nhà thiên văn học Ralph Wijers ở Đại học Amsterdam, chủ tịch hội đồng biên tập của arXiv, cho biết phần lớn tác giả của những bài báo do AI tạo ra đều gửi bài lần đầu. Nhiều người trong số đó là nhà nghiên cứu trẻ, có lẽ đang cố gắng làm đẹp hồ sơ công bố để dự tuyển vào chương trình tiến sĩ hoặc xin việc. Và rất có thể họ không biết các bản thảo trên arXiv được kiểm duyệt.
Tình trạng tương tự cũng diễn ra ở bioRxiv và medRxiv - những nền tảng tiền xuất bản trong lĩnh vực sinh học và y học. Theo Richard Sever, Giám đốc khoa học và chiến lược của tổ chức phi lợi nhuận vận hành hai nền tảng này, trong giai đoạn 2024-2025, ông đã chứng kiến những trường hợp trước đây chưa từng gửi bài nào giờ lại gửi tới 50 bài trong một năm.
Các cộng đồng nghiên cứu vẫn lọc bỏ một lượng ‘rác’ nhất định trên các nền tảng tiền xuất bản, nhưng cách làm này chỉ có ý nghĩa khi các bài báo nghiêm túc chiếm ưu thế. Còn nếu 99 trong số 100 bài báo là sản phẩm giả mạo hoặc ngụy tạo thì việc trông chờ cộng đồng tự sàng lọc sẽ không còn hiệu quả nữa, theo Sever. "Đây có thể là một cuộc khủng hoảng mang tính sống còn". Vì là nơi ai cũng có thể đăng bài, các nền tảng tiền xuất bản đồng thời là nơi nội dung do AI tạo ra làm "loãng" chất lượng học thuật rõ rệt nhất. Ở các tạp chí khoa học, đặc biệt là những tạp chí hàng đầu, các nhà phản biện như Quintana vẫn đọc bài rất kỹ.
Trước khi xuất hiện làn sóng bài viết do AI tạo ra, công việc này vốn đã là gánh nặng cho giới khoa học. Chưa kể bây giờ các công cụ AI ngày càng tinh vi: những dấu hiệu lộ liễu, như trích dẫn giả mà Quintana phát hiện, có thể sẽ biến mất không để lại dấu vết và các công cụ tự động phát hiện gian lận cũng có thể thất bại. Nếu các AI trở nên quá tinh vi, toàn bộ hệ thống xuất bản khoa học có thể bị đảo lộn.
A. J. Boston, giáo sư tại Đại học Murray State, người đã viết về vấn đề này, nhắc đến thuyết âm mưu "internet đã chết". Khi đó, internet không còn là không gian sống động do con người tạo ra mà chỉ là nơi máy móc tự động "nói chuyện" với nhau. Boston cho rằng trong kịch bản xấu nhất, các công trình khoa học cũng có thể rơi vào viễn cảnh tương tự: AI viết hầu hết các bài báo và cũng chính AI phản biện nội dung.
Màn đối thoại qua lại rỗng không này lại được dùng làm dữ liệu để huấn luyện các mô hình AI mới. Những hình ảnh giả mạo và trích dẫn ảo sẽ ngày càng ăn sâu vào hệ thống tri thức của nhân loại, trở thành một dạng ô nhiễm tri thức vĩnh viễn không bao giờ loại bỏ được.
Thanh An tổng hợp
---
Nguồn tham khảo:
Ross Andersen. Science Is Drowning in AI Slop. The Atlantic, 22/01/2026. https://www.theatlantic.com/science/2026/01/ai-slop-science-publishing/685704/
Nicola Jones. ArXiv preprint server clamps down on AI slop. Science, 23/01/2026. https://www.science.org/content/article/arxiv-preprint-server-clamps-down-ai-slop
Vitomir Kovanovic. What the hyperproduction of AI slop is doing to science. The Conversation, 19/12/2025. https://theconversation.com/what-the-hyperproduction-of-ai-slop-is-doing-to-science-272250