Gặp Aeneas: AI có thể lấp đầy khoảng trống của các văn bản Latin bị hủy hoại

Những kết quả tốt nhất có được khi con người và mô hình này làm việc cùng nhau.

Một văn bản quân sự từ Sardinia. Mô hình AI Aeneas có thể dự đoán phần văn bản bị mất từ một dòng chữ đã bị mất (văn bản màu xám) mà không cần biết độ dài của phần bị mất. Nguồn: Yannis Assael và cộng sự/Nature

Một mô hình AI có thể dự đoán nơi nào có các dòng chữ Latin cổ, ước tính độ tuổi và phục hồi những phần đã bị mất mát. Mô hình này mang tên Aeneas, được miêu tả trên Nature, do một nhóm nghiên cứu từng tạo ra một công cụ AI giải đoán chữ Hy lạp cổ phát triển.

Việc nghiên cứu về các ký tự cổ đại, hay còn gọi là nghiên cứu văn khắc, rất thách thức bởi một số văn bản bị mất chữ cái, từ hoặc đoạn văn, và các ngôn ngữ thay đổi theo thời gian. Các nhà sử dụng phân tích văn bản bằng việc so sánh chúng với những văn bản chứa những từ, ngữ tương tự. Tuy nhiên việc phát hiện ra những đoạn văn bản mất nhiều thời gian, đồng tác giả Thea Sommerschield, một nhà nghiên cứu văn khắc ở ĐH Nottingham, nói.

Thách thức nữa là các văn khắc mới tiếp tục được khám phá, vì thế có quá nhiều thông tin để biết đối với một cá nhân, theo Anne Rogerson, người nghiên cứu về văn bản Latin ở ĐH Sydney, Australia.

Để việc phục hồi, dịch và phân tích được dễ dàng hơn, một nhóm bao gồm các nhà nghiên cứu từ các trường đại học ở Anh, Hy Lạp và từ công ty AI DeepMind của Google ở London, đã phát triển một mô hình AI tạo sinh được huấn luyện bằng các văn khắc từ ba kho cơ sở dữ liệu nghiên cứu văn khắc Latin lớn nhất thế giới. Việc kết hợp đem lại 176.861 văn khắc có từ thế kỷ thứ 7 trước Công nguyên đến thứ 8 sau Công nguyên. Mô hình này chứa ba mạng thần kinh, mỗi mạng được thiết kế cho một nhiệm vụ khác nhau: phục hồi văn bản bị mất; dự đoán văn bản có thể từ nơi nào; và ước tính niên đại. Bên cạnh đó, Aeneas cũng cung cấp một dan sách những văn khắc tương tự từ dữ liệu để hỗ trợ tìm câu trả lời, xếp hạng bằng cách tìm sự tương đồng với văn khắc gốc.

“Aeneas có thể truy vấn những ký sự song song tương đồng từ toàn bộ bộ dữ liệu” bởi vì mỗi văn bản có một nhận dạng độc nhất trong cơ sở dữ liệu này, đồng tác giả Yannis Assael, một nhà nghiên cứu tại Google DeepMind nói.

Nhóm nghiên cứu đã thử nghiệm độ chính xác và sự hữu dụng của mô hình bằng việc đề nghị phục hồi văn bản của 23 văn khắc đã bị loại bỏ khỏi bộ các văn khắc. Các chuyên gia cũng được đề nghị nhận dạng nguồn gốc và thời gian của các văn khắc đó, độc lập lẫn với sự hỗ trợ của mô hình. Các chuyên gia đoán niên đại của các văn khắc sai lệch khoảng 31 năm so với câu trả lời đúng còn Aeneas sai lệch trong vòng 13 năm.

Khi nhận diện nguồn gốc địa lý và phục hồi những phần khác nhau của một văn bản, chuyên gia được tiếp cận với danh sách văn khắc tương tự của mô hình đã dự đoán chính xác hơn chuyên gia làm việc một mình. Các chuyên gia cũng xác định niên đại chỉ sai lệch so với câu trả lời đúng 14 năm khi họ có trong tay danh sách và dự đoán của mô hình.

Người hỗ trợ các nhà sử học

Mô hình này sau đó được kiểm tra trên một văn bản nổi tiếng là Res gestae divi Augusti, văn bản nêu chi tiết cuộc đời của hoàng đế La Mã Augustus. Dự đoán của mô hình về tuổi của văn khắc tương đồng với các nhà sử học và công cụ này không bị đánh lừa về niên đại bởi những đề xuất niên đại trong văn bản. Nó cũng lựa chọn được những đặc điểm mà một nhà sử học có thể cần để dự đoán niên đại hoặc nguồn gốc.

Aeneas cũng thể hiện tốt năng lực khi kiểm tra một án thờ với văn khắc Latin. Nó  phát hiện ra một văn khắc khác từ một vùng tương tự trong danh sách các văn khắc tương đồng mà theo nhóm nghiên cứu nhận định là đáng chú ý vì hai án thờ này không được kết nối về mặt địa lý hoặc cùng một thời kỳ.

Rogerson cho biết, mô hình này có thể hữu dụng để phân tích những dữ liệu lớn mà việc phân tích vượt qua năng lực của một cá nhân thông thường. Nó cũng giúp các nhà sử dụng tìm những văn khắc tương đồng với văn khắc họ đang nghiên cứu và có thể hỗ trợ sinh viên đang nghiên cứu về văn khắc.

Các câu trả lời của mô hình này dường như hợp lý hơn những câu trả lời của các công cụ AI phổ biến, Rogerson cho biết thêm. “Nó đem đến một giả thuyết dựa trên bằng chứng mà nó đang tìm hiểu, vì vậy đây là một dự đoán có lý chứ không phải là một cú đoán quàng xiên mò mẫm trong bóng tối”.

Tuy nhiên, nhóm nghiên cứu làm nên Aeneas cho biết mô hình này vẫn còn có giới hạn bởi vì cơ sở dữ liệu huấn luyện nó nhỏ hơn những cơ sở dữ liệu của các mô hình khác, như ChatGPT và Copilot của Microsoft, vốn có thể ảnh hưởng đến hiệu suất của nó trên những văn khắc thông thường. Rogerson cho rằng Aeneas có thể hữu dụng với những văn khắc độc bản hoặc có niên đại từ một giai đoạn còn lại ít đồ tạo tác.

Thanh Phương dịch từ Nature

Nguồn: doi: https://doi.org/10.1038/d41586-025-02335-x

Tác giả

(Visited 31 times, 31 visits today)