Guillaume Cabanac: Điều tra các bài báo khoa học giả mạo
Nhà khoa học máy tính này đã khám phá ra một loại bài báo khoa học giả mạo mới.
“Nhà nước kiến bò ngầm”. “Bệnh ác tính Bosom”. “Lực hướng đông Mặt trời”. Những cụm từ này nghe có vẻ giống như mô tả trong một tác phẩm hư cấu, nhưng thực chất lại là những cách diễn đạt kì lạ về các thuật ngữ khoa học như đàn kiến, ung thư vú và năng lượng mặt trời. Guillaume Cabanac, một nhà khoa học máy tính tại Đại học Toulouse (Pháp) đã phát hiện ra những cụm từ kỳ lạ như vậy hàng ngày trong các bài báo học thuật.
Guillaume Cabanac. Nguồn: Nature
Năm nay, Cabanac và các đồng nghiệp đã tìm thấy “những cụm từ biến dạng” – theo cách gọi của họ, trong hàng nghìn bài báo. Một vài bài báo đã bị rút lại, trong khi các nhà xuất bản vẫn đang xem xét nhiều bài báo khác. Cabanac đã lập một trang web để theo dõi vấn đề đang mọc lên như nấm này. “Họ đã phát hiện ra toàn bộ đống lằng nhằng này trong các bài báo có vẻ giả mạo”, Elisabeth Bik, một nhà phân tích về liêm chính trong nghiên cứu ở California cho biết.
Việc loại bỏ những vấn đề này liên quan đến công việc hàng ngày của Cabanac: phân tích các tài liệu học thuật. Hiện anh dành khoảng 2 giờ mỗi ngày để tìm các cụm từ biến dạng. Một số người có thể thấy chúng buồn cười nhưng Cabanac nhìn nhận vấn đề rất nghiêm túc. “Điều này không nên xảy ra”, anh nói.
Cuộc săn lùng những bài báo vô nghĩa của Cabanac bắt đầu từ năm 2015, khi anh cộng tác với Cyril Labbé, một nhà khoa học máy tính tại Đại học Grenoble Alpes (Pháp). Labbé đã phát triển một chương trình để phát hiện các bài báo khoa học máy tính vô nghĩa được tạo tự động bằng SCIgen – một phần mềm ban đầu được tạo ra như một trò đùa. Điều này đã giúp các tạp chí rút lại hơn 120 bản thảo.
Cabanac đã hỗ trợ Labbé cập nhật chương trình này để tìm các bài báo có một phần do SCIgen viết nên, và dùng công cụ chuyên tra cứu tài liệu học thuật Dimensions để xác định vị trí của chúng. Năm 2021, họ tìm thấy hàng trăm bài báo chứa các từ vô nghĩa được xuất bản trên các tạp chí và kỷ yếu hội nghị dưới dạng bản thảo (preprint).
Để nâng cao nhận thức, Cabanac và các đồng nghiệp đã gửi email cho các nhà xuất bản và đăng những phát hiện của mình trên các phương tiện truyền thông xã hội và trang web bình duyệt sau xuất bản PubPeer. Cabanac cũng xây dựng một trang web Problematic Paper Screener để gắn cờ và báo cáo các bản thảo có vấn đề. “Anh ấy rất bực mình về những bài báo giả. Anh ấy sẵn sàng làm bất cứ điều gì cần thiết để ngăn chặn việc này””, Labbé cho biết.
Những “sản phẩm” của SCIgen đã khiến Alexander Magazinov, một kỹ sư phần mềm tại công ty công nghệ đa quốc gia Yandex có trụ sở tại Moscow, liên hệ với Labbé và Cabanac. Magazinov nghi ngờ rằng SCIgen có thể đứng sau các văn bản kỳ lạ giải thích những khái niệm khoa học mà anh đã đọc trong các bài báo, chẳng hạn như “thông tin khổng lồ” (colossal information) cho “dữ liệu lớn” (big data). Cả ba đã cùng nhau xác định nhiều thuật ngữ trong hàng trăm bài báo mà họ đã báo cáo vào tháng 7/2021. Khi tìm hiểu sâu hơn, họ cho rằng các công cụ diễn giải bằng máy đã tạo ra các từ này.
Người ta vẫn chưa biết rõ động cơ của những kẻ đứng sau. Nếu mục đích là “đánh bóng” tên tuổi thông qua những bài báo đăng trên các tạp chí uy tín, tại sao rất nhiều bài báo có tiêu đề vô nghĩa? Cabanac cho rằng động cơ có thể xuất phát từ các yêu cầu về chỉ tiêu bài báo, khiến một số nhà nghiên cứu liên tục sản xuất bài báo để duy trì công việc của mình. Mặc dù tạo ra các bài báo vô nghĩa song điều này có thể giúp họ “có thêm những công bố trong sơ yếu lí lịch và ‘thẻ xanh’ để ở lại viện nghiên cứu”.
“Tôi nghĩ những cụm từ biến dạng này cho thấy sự thất bại của khâu bình duyệt”, Jennifer Byrne, một nhà nghiên cứu ung thư ở ĐH Sydney (Úc), người đã làm việc với Cabanac trong các dự án về liêm chính khoa học khác nói. “Chắc chắn ai đó tỉnh táo trong quá trình bình duyệt sẽ thấy rằng những cụm từ đó không đúng”.
Đến nay, Cabanac và các cộng sự cùng với các tình nguyện viên từ cộng đồng PubPeer đã xác định chính xác gần 400 cụm từ biến dạng trong hơn 2000 bài báo, bao gồm những bài báo trên các tạp chí thuộc các nhà xuất bản nổi tiếng như Elsevier và Springer Nature. (nhóm tin tức của Nature và nhà xuất bản độc lập về mặt biên tập). Đầu tiên, một người sẽ phát hiện ra một cụm từ. Sau đó một thuật toán tìm kiếm sẽ chạy trên bản chỉ mục của công cụ tìm kiếm Dimension để tìm các bài báo chứa cụm từ đó. Cabanac và những người khác sẽ quét thủ công từng bài báo để loại bỏ các từ giả mạo. Trong tương lai, Cabanac muốn phát triển một chương trình có thể tự động xác định các cụm từ biến dạng.
Cabanac hy vọng rằng công việc của mình sẽ góp phần mang lại sự trong sạch cho các tài liệu khoa học. Nhưng anh biết điều này không dễ dàng. “Tôi lo rằng những kỹ thuật mới có thể giúp những kẻ lừa đảo xuất bản các bài báo có chứa các lỗi khó phát hiện hơn. Đó là một trò chơi vòng lặp, cho nên chúng ta cần phải chuẩn bị”, anh nói.
Thanh An dịch
Nguồn: https://www.nature.com/immersive/d41586-021-03621-0/index.html