Thị trường mua bán lượt trích dẫn: Lời cảnh báo cho các nhà khoa học chân chính
Những người theo dõi tính liêm chính học thuật lo ngại về tình trạng giả mạo và thao túng lượt trích dẫn ngày càng gia tăng, với các hành vi gian lận ngày càng táo bạo hơn.
Họ đã bẫy một công ty để mua được thêm 50 lượt trích dẫn cho một hồ sơ Google Scholar giả mà họ tạo ra, với giá 300 USD. Dường như đây là một công ty ‘bán sỉ’ lượt trích dẫn giả mạo. Ví dụ trên đã chứng minh sự tồn tại của thị trường chợ đen mua bán tài liệu tham khảo giả mạo, vốn đã bị các nhà quan sát nghi ngờ lâu nay.
Vào tháng 2/2024, nhà khoa học máy tính Yasir Zaki tại Đại học New York (NYU) phân hiệu Abu Dhabi đã mô tả phương pháp bẫy tội phạm của nhóm trong một công bố tiền xuất bản: “Chúng tôi nhận thấy một số hồ sơ Google Scholar tăng lượt trích dẫn một cách đáng ngờ”. “Khi một bài báo nhận được hàng trăm lượt trích dẫn trong vòng vài ngày kể từ khi được công bố, hoặc khi một nhà khoa học có số lượt trích dẫn tăng đột biến, bạn biết rằng có gì đó đáng ngờ”.
Những hành vi này làm vấy bẩn nền học thuật vì nhiều khía cạnh trong sự nghiệp của một nhà khoa học phụ thuộc vào số lượt trích dẫn mà họ tích lũy được. Nhiều tổ chức khoa học, giáo dục sử dụng số lượt trích dẫn để đánh giá các học giả, và cũng là cơ sở để tính chỉ số H-index đo lường năng suất và tác động học thuật của các nhà nghiên cứu.
Áp lực phải công bố nhiều và phải được trích dẫn nhiều gây tác động xấu đến hành vi của các nhà khoa học.
Thao túng trích dẫn có thể gây ra hậu quả thực sự. Hồi tháng sáu, báo El País đưa tin Ủy ban Đạo đức Nghiên cứu của Tây Ban Nha đã thúc giục Đại học Salamanca phải điều tra vị hiệu trưởng mới được bổ nhiệm là ông Juan Manuel Corchado, một nhà khoa học máy tính với các chỉ số trên hồ sơ Google Scholar tăng cao đột biến.
Thuận mua vừa bán
Những người theo dõi liêm chính học thuật như nhà khoa học máy tính Cyril Labbé tại Đại học Grenoble Alpes đã nghi ngờ các lò sản xuất bài báo nghiên cứu kém chất lượng và tình trạng mua bán vị trí tác giả trên các bài báo vừa được chấp thuận công bố [nhưng chưa xuất bản]. Các lò chế biến này cũng có khả năng chèn các trích dẫn vào danh mục tài liệu tham khảo của các bài báo mà họ rao bán.
Vào tháng 11/2023, Clarivate đã loại hơn 1,000 nhà nghiên cứu ra khỏi danh sách các học giả được trích dẫn nhiều nhất do nghi ngờ số lượt trích dẫn gia tăng đột biến và hiện tượng ‘xuất bản siêu tốc’.
Zaki và các đồng nghiệp đã tạo ra một hồ sơ Google Scholar giả mạo gắn với 20 ‘nghiên cứu’ được tạo ra bằng trí tuệ nhân tạo. Sau đó, họ tiếp cận một công ty mà họ đã phát hiện khi phân tích các trích dẫn liên quan đến một trong các tác giả trong tệp dữ liệu đáng ngờ. Dường như công ty này đang bán lượt trích dẫn cho các tác giả có hồ sơ Google Scholar. Nhóm đã liên hệ với công ty này qua email, sau đó duy trì liên lạc qua WhatsApp. Công ty đưa ra các mức giá 300 USD cho 50 lượt trích dẫn và 500 USD cho 100 lượt. Nhóm đã chọn mức giá đầu tiên và chỉ sau 40 này, hồ sơ Google Scholar đã có thêm 50 trích dẫn từ các bài nghiên cứu đăng trên 22 tạp chí khác nhau, 14 trong số đó nằm trong danh mục Scopus.
Trên bản tin đăng trên tờ Nature, nhóm không tiết lộ tên công ty này, do lo ngại sẽ tiết lộ danh tính tác giả của các bài nghiên cứu sử dụng trích dẫn giả mạo. Khi được Nature phỏng vấn về tình trạng hồ sơ giả mạo, kỹ sư Anurag Acharya của Google Scholar nói rằng hành vi sai trái trong học thuật có thể nhưng rất hiếm khi xảy ra, đơn giản vì tất cả mọi khía cạnh của một bài báo đều công khai: danh mục tài liệu tham khảo, các tác giả, các bài báo khác đã trích dẫn nó được lưu trữ ở đâu,… Bất kỳ ai trên thế giới đều có thể liên lạc với tác giả để tìm hiểu về những điều kể trên.
Thế nhưng, thực tế lại không minh bạch như vậy. Vào tháng 7/2024, một con mèo tên Larry đã được tạo cho một hồ sơ Google Scholar, là ‘tác giả’ duy nhất của hàng chục ‘bài báo’. Các nhà nghiên cứu đã đăng thêm hàng chục bài báo vô nghĩa khác trên trang mạng xã hội khoa học ResearchGate, trong đó có trích dẫn các ‘bài báo’ của Larry. Khoảng một tuần sau khi ‘nhà khoa học’ Larry hiện nguyên hình, dữ liệu về các ‘nghiên cứu’ của Larry, cũng như các lượt trích dẫn mà Larry tích lũy được đã bị Google Scholar xóa. ResearchGate cũng loại bỏ các ‘bài báo’ trích dẫn ‘nghiên cứu của Larry’ trong cơ sở dữ liệu của họ.
Kẽ hở từ các bản thảo tiền xuất bản
Cái bẫy mà Zaki và đồng nghiệp tạo ra là một phần trong nỗ lực lớn hơn nhằm đánh giá quy mô của vấn nạn trích dẫn giả mạo. Họ đã sử dụng phần mềm để kiểm tra khoảng 1.6 triệu hồ sơ Google Scholar có ít nhất 10 công bố khoa học. Họ tìm kiếm tìm các hồ sơ có hơn 200 lượt trích dẫn mà chỉ số này tăng gấp 10 lần mỗi năm trở lên hoặc tăng vọt quá 25% tổng số lượt trích dẫn tích lũy. Nhóm đã xác định được 1,016 hồ sơ khả nghi có các đặc điểm nêu trên.
Zaki nói rằng nhiều trích dẫn từ các bản thảo tiền xuất bản chưa được bình duyệt, được liệt kê trong thư mục tham khảo của toàn bài nhưng không nằm trong phần nội dung chính của bản thảo.
Nhà khoa học máy tính Talal Rahwan tại NYU Abu Dhabi cho biết các trích dẫn dễ dàng bị thao túng bằng cách tạo ra các bản thảo tiền xuất bản giả mạo và thông qua các dịch vụ trả phí.
Nhóm của Zaki và Rahwan đã khảo sát 574 nhà nghiên cứu tại 10 trường đại học hàng đầu thế giới và nhận thấy tại các trường đại học xem số lượt trích dẫn là một tiêu chí đánh giá năng lực học thuật, 60% trong số họ lấy dữ liệu từ Google Scholar.
Các dấu hiệu đáng ngờ
Labbé không bị thuyết phục rằng Google Scholar được sử dụng rộng rãi để đếm số lượt trích dẫn của các nhà nghiên cứu như nhận định của khảo sát nêu trên. Ông nói rằng dữ liệu Google Scholar vốn đã bị xem là kém tin cậy vì mối nghi ngờ lâu nay về các dịch vụ mua bán lượt trích dẫn. Tuy nhiên, ông vẫn đánh giá cao Zaki và cộng sự lần đầu tiên đã bẫy được và chứng minh rõ sự tồn tại của các dịch vụ kiểu này.
Guillaume Cabanac là một nhà khoa học máy tính tại Đại học Toulouse đã tạo ra công cụ gắn cờ các bài báo giả chứa các cách diễn đạt kỳ lạ (được cố ý chèn vào bài nhằm né tránh sự phát hiện của phần mềm chống đạo văn). Ông nói rằng nhiều bài báo đột nhiên trích dẫn về một tài liệu khác vốn không liên quan gì đến chủ đề đang đề cập.
Nhóm của Labbé đang xây dựng một công cụ tự động gắn nhãn các mẫu trích dẫn đáng ngờ chỉ dấu cho sự thao túng.
Để hỗ trợ mục đích này, nhóm của Zaki và Rahwan đã đề xuất một thước đo gọi là ‘chỉ số tập trung trích dẫn’, nhằm phát hiện các trường hợp nhận được nhiều lượt trích dẫn chỉ từ một số ít nguồn. Đó cũng là dấu hiệu của ‘vòng trích dẫn’ – các nhà nghiên cứu cố tình trích dẫn bài báo của nhau nhằm giúp lẫn nhau thổi phồng số lượt trích dẫn.
Các nhà thám tử liêm chính khoa học có một nỗi lo rằng những kẻ lừa đảo sẽ sớm nghĩ ra thủ đoạn tinh vi hơn để tránh bị phát giác. Ví dụ, chúng có thể phân tán nguồn trích dẫn của mình bằng cách mỗi lần chỉ mua vài lượt trích dẫn mà không mua số lượng lớn.
Labbé thì cho rằng phải giải quyết căn nguyên của vấn đề: giảm bớt yêu cầu tích lũy lượt trích dẫn cho các học giả trong quá trình phát triển sự nghiệp nghiên cứu của họ. “Áp lực phải công bố nhiều và phải được trích dẫn nhiều gây tác động xấu đến hành vi của các nhà khoa học”, Labbé đánh giá.□
Cam Ly dịch
Nguồn: doi: https://doi.org/10.1038/d41586-024-01672-7