![]() |
Hình minh họa. Nguồn: Getty |
Cụ thể, từ năm 2021 đến 2024, số bài báo sử dụng dữ liệu từ những cơ sở dữ liệu này đã tăng từ khoảng 4.000 lên 11.500 - nhiều hơn khoảng 5.000 bài so với mức tăng dự kiến dựa trên xu hướng xuất bản trước đó.
Trong nghiên cứu, Matt Spick, nhà khoa học y sinh tại Đại học Surrey (Anh), và các cộng sự đã dùng một thuật toán để dự đoán mức tăng trưởng số lượng bài báo dựa trên mỗi cơ sở dữ liệu y tế truy cập mở từ năm 2014 đến 2024. Đây cũng là giai đoạn mà các công cụ AI tạo văn bản như ChatGPT và Gemini bắt đầu phổ biến. Nhóm tập trung phân tích những thay đổi về số lượng bài báo, cách đặt tiêu đề, và thông tin về nơi làm việc của tác giả. Có tất cả 34 cơ sở dữ liệu y tế truy cập mở được khảo sát.
Kết quả, khi so sánh dự đoán số lượng bài báo sẽ được công bố với số lượng bài báo được công bố trên thực tế, họ nhận thấy có sáu bộ dữ liệu có tốc độ tăng trưởng vượt xa mức dự đoán. Tất cả, trừ một bộ dữ liệu, đều cho thấy sự gia tăng số lượng bài báo có tiêu đề giống mẫu có sẵn. Năm bộ dữ liệu đó thuộc các cơ sở dữ liệu: Khảo sát Dinh dưỡng và Sức khỏe Quốc gia Hoa Kỳ (NHANES), ngân hàng sinh học Anh UK Biobank, Hệ thống Báo cáo Sự kiện bất lợi của Cơ quan quản lý Thực phẩm và Dược phẩm Mỹ (FAERS), Nghiên cứu Gánh nặng Bệnh tật Toàn cầu (GBD), và cơ sở dữ liệu di truyền của Phần Lan FinnGen. Chẳng hạn, đến năm 2024, số bài báo sử dụng dữ liệu từ FinnGen đã tăng gần 15 lần so với năm 2021; từ FAERS tăng gần bốn lần; từ UK Biobank tăng 2,4 lần trong cùng kỳ.
Nhóm nghiên cứu cũng phát hiện một số bài báo "đáng ngờ", thường liên kết các tình trạng sức khỏe phức tạp với một biến duy nhất. Ví dụ, một bài bao đã sử dụng phương pháp "ngẫu nhiên hóa Mendel" - kỹ thuật giúp xác định liệu một yếu tố nguy cơ sức khỏe cụ thể có gây ra bệnh hay không - để nghiên cứu việc uống sữa tách béo có thể ngăn ngừa trầm cảm không; một bài báo khác lại xem xét trình độ học vấn ảnh hưởng như thế nào đến nguy cơ mắc thoát vị sau phẫu thuật.
"Nhiều kết luận từ các bài báo có thể không an toàn, nhưng chúng lại dễ dàng tiếp cận công chúng, và điều đó thực sự khiến tôi lo ngại", Spick nói.
"Toàn bộ sự việc này đang làm suy giảm niềm tin đối với khoa học mở, vốn trước đây từng được xem là vấn đề không phải bàn cãi", Csaba Szabó - nhà dược lý học tại Đại học Fribourg (Thụy Sĩ), nhận định.
Igor Rudan - nhà nghiên cứu y tế toàn cầu tại Đại học Edinburgh (Anh) kiêm đồng Tổng biên tập của Journal of Global Health, đánh giá cao nghiên cứu vì đã "hệ thống hóa vấn đề". "Từ góc nhìn của một tạp chí đơn lẻ thì không thể thấy được bức tranh toàn cảnh như vậy", ông nói.
Rudan cho biết, từ năm 2022, ban biên tập của Journal of Global Health đã nhận thấy số lượng bài sử dụng dữ liệu từ các cơ sở dữ liệu mở như UK Biobank, GBD và NHANES, tăng bất thường. Năm 2023 và 2024, các loại bản thảo này chiếm lần lượt 10% và 15% tổng số bài gửi đến tạp chí.
Để đối phó, đầu tháng này, tạp chí đã ban hành hướng dẫn cho tác giả nộp bài nghiên cứu sử dụng dữ liệu mở, theo đó yêu cầu họ khai báo số lượng bài báo dựa trên các bộ dữ liệu tương tự đã công bố trong ba năm qua, minh bạch việc sử dụng AI trong quá trình chuẩn bị bản thảo, và giải thích rõ cách họ kiểm soát các kết quả dương tính giả.
Spick hy vọng rằng các tạp chí và nhà xuất bản khác sẽ áp dụng các biện pháp kiểm tra tương tự đối với những bài báo dựa trên những bộ dữ liệu có thể đang bị lạm dụng. Ông cũng hy vọng phương pháp phân tích của mình, đã được đăng trên medRxiv, sẽ là điểm khởi đầu để các nhà nghiên cứu khác có thể phát triển thêm, nhằm giám sát chặt chẽ hơn việc sử dụng dữ liệu y tế mở.
Nguồn:
https://www.nature.com/articles/d41586-025-02241-2
https://www.medrxiv.org/content/10.1101/2025.07.07.25331008v1
Phạm Nhật
