Lần đầu tiên, AI có thể đọc được chữ từ một cuộn giấy Herculaneum cổ đại

Kỹ thuật học máy đã tiết lộ các con chữ Hy Lạp trong các bản quét CT các cuộn giấy papyrus cuộn lại.

Chỉ có thể “mở” các cuộn giấy Herculaneum đã cháy đen bằng tia X.

Một sinh viên khoa học máy tính tuổi 21 đã giành thắng lợi trong cuộc thi toàn cầu về việc đọc văn bản trong một cuộn giấy đã cháy thành than từ thành phố La Mã cổ đại Herculaneum, nơi đã bị tàn phá trong một cuộc phun trào núi lửa vào năm 79 sau công nguyên – gần Pompeii. Đột phá này có thể giúp mở ra hàng trăm văn bản của thư viện cổ duy nhất còn tồn tại từ thời Hy Lạp – La Mã cổ đại.

Luke Farritor, làm việc tại trường ĐH Nebraska–Lincoln, phát triển một thuật toán học máy dò được những chữ cái trên phần lớn những dòng của các cuộn giấy papyrus, bao gồm πορϕυρας (porphyras), nghĩa là “purple” (tía). Farritor đã sử dụng những khác biệt quy mô nhỏ không dễ phát hiện trên bề mặt văn bản để huấn luyện mạng thần kinh và nhấn vào mực in.

“Khi lần đầu tiên tôi thấy bức ảnh, tôi đã bị sốc”, Federica Nicolardi, một nhà nghiên cứu về văn bản giấy papyrus tại trường đại học Naples ở Ý và một thành viên của ủy ban khoa học đánh giá phát hiện của Farritor. “Đó là một giấc mơ”, cô nói. Hiện tại “Tôi có thể trên thực tế nhìn thấy thứ bên trong một cuộn giấy”.

Hàng trăm cuộn giấy bị chôn vùi ở núi Vesuvius vào tháng 10 năm 79 sau công nguyên, khi vụ phun trào đã chôn Herculaneum dưới 20 mét tro bụi núi lửa. Những nỗ lực ban đầu mở các cuộn giấy papyrus dẫn đến một đống mảnh vụn và các học giả sợ hãi phần còn lại sẽ không thể mở được hoặc đọc. “Đó là những vật thể khủng khiếp. Chúng đều nhàu nát và vỡ vụn”, Nicolardi nói.

Cuộc thi Thách thức Vesuvius đưa ra một loạt giải thưởng, một giải thưởng chính với 700.000 USD để đọc bốn hoặc nhiều đoạn từ một cuộn giấy. Vào ngày 12/10 vừa qua, ban tổ chức thông báo giải thưởng ‘những chữ cái đầu tiên’ trị giá 40.000 USD cho đọc hơn 10 ký tự trong một miếng giấy papyrus diện tích 4 cm2. Youssef Nader, một học viên cao học tại ĐH Free ở Berlin, nhận được giải nhì với trị giá 10.000 USD.

Một thư viện sang chảnh

Để thấy được những chữ cái và từ bên trong một cuộn giấy “vô cùng kích thích”, Thea Sommerschield, một nhà sử học thời kỳ La Mã và Hy Lạp cổ đại tại ĐH Ca’ Foscari ở Venice, Italy. Các cuộn giấy này được khám phá trong thế kỷ 18, khi những người thợ khai quật một phần tàn tích của một dinh thự sang trọng có thể là thuộc về gia đình bố vợ Julius Caesar. Giải mã những cuộn giấy papyrus, Sommerschield nói, có thể “cách mạng hóa hiểu biết của chúng ta về lịch sử và văn học cổ đại”. Phần lớn những văn bản cổ điển ngày nay đều là kết quả của việc những người sao chép lặp đi lặp lại công việc này qua nhiều thế kỷ. Ngược lại, thư viện Herculaneum chứa nhiều văn bản mà không biết từ những nguồn nào, có thể trực tiếp từ các tác giả.

Cho đến hiện nay, các nhà khoa học mới có thể nghiên cứu chỉ một số mảnh. Một vài tác phẩm bằng tiếng Latin đã được nhận diện nhưng phần lớn các cuộn giấy được viết bằng tiếng Hy Lạp liên quan đến trường phái triết học Epicurucus. Đó là những phần thuộc về cuốn On Nature, do chính Epicurus viết, và các tác phẩm của một nhà triết học còn ít được biết đến là Philodemus về nhiều chủ đề như thói hư tật xấu, âm nhạc, thuật hùng biện và cái chết. Có ý kiến cho rằng thư viện này có thể từng là bộ sưu tập tác phẩm của ông. Nhưng hơn 600 cuộn giấy – phần lớn ở Thư viện quốc gia ở Naples, với một ít ở Anh và Pháp – vẫn còn nguyên vẹn và chưa được mở. Nhiều cuộn papyrus nữa có thể vẫn còn ở tầng dưới nữa của tòa dinh thự và chưa được khai quật.

Seales và nhóm nghiên cứu của ông đã dành nhiều năm để phát triển các phương pháp để “mở ra” những lớp mỏng mảnh bằng các bản quét CT và để hiển thị chúng dưới dạng các bức ảnh phẳng. Vào năm 2016, ông công bố việc sử dụng kỹ thuật này để đọc một cuộn giấy đã bị carbon hóa từ En-Gedi, Israel, phát hiện những đoạn của Book of Leviticus – phần của Kinh Torah Do thái và Kinh Cựu ước – được viết vào thế kỷ thứ ba hoặc thứ tư sau công nguyên. Nhưng mực in trên cuộn En-Gedi chứa kim loại, nên nó hiển thị rất sáng trên các bản quét CT. Mực trên các cuộn Herculaneum lâu đời hơn có chứa carbon, về cơ bản gồm than và nước, với cùng mật độ như papyrus chứa nó trong các bản quét, vì vậy không hiển thị được rõ nét.

Seales nhận ra là ngay cả khi ở mức phơi sáng nhất thì cũng không có sự khác biệt, các bản quét CT phải nắm bắt được những khác biệt nhỏ nhất trong văn bản mới có thể phân biệt được những khu vực khác biệt giữa nền giấy với mực in. Để làm điều đó, ông đã huấn luyện một mạng thần kinh nhân tạo để đọc được chữ trên các bức ảnh tia X đã có trong những mảnh văn bản mở của Herculaneum. Sau đó vào năm 2019, ông đã mang hai cuộn giấy từ Viện nghiên cứu Pháp ở Paris tới Cơ sở máy gia tốc Diamond Light Source gần Oxford, Anh để quét chúng với độ phân giải cao nhất.

Đọc được những cuộn giấy còn nguyên vẹn này vẫn còn là một nhiệm vụ khó khăn, vì vậy nhóm nghiên cứu đã công khai các bản quét và thiết lập cuộc thi Vesuvius Challenge. “Chúng tôi đồng ý với nhau là chúng tôi thà đọc được những gì bên trong càng sớm càng tốt hơn là giữ lại tất cả”, Seales nói.

Khoảng 1.500 nhóm ngay sau đó đã sớm thảo luận và hợp tác thông qua nền tảng Discord. Các giải thưởng được thiết kế theo nhiều giai đoạn, mỗi cột mốc được chạm đến thì mã chiến thắng lại được tung ra cho mọi người tham gia. Farritor, người luôn quan tâm đến vấn đề lịch sử và tự học tiếng Latin từ nhỏ đã tham gia rất sớm.

Từ đầu tiên đọc được ở cuộc thi Vesuvius Challenge là từ πορφύρας trong tiếng Hy Lạp, nghĩa là từ “tía”

Song song với đó, nhóm nghiên cứu của Seales tìm hiểu về cách mở cuộn giấy ảo, đưa ra những hình ảnh của các trang để những người tham gia có thể phân tích. Một khoảng khắc quan trọng đã đến vào cuối tháng 6, khi một thí sinh chỉ ra một số hình ảnh, mực in đã hiển thị rõ ràng dưới mắt thường. Farritor liền tập trung vào đó, tìm kiếm gợi ý về những chữ cái.

Một đêm tháng 8, anh đến một bữa tiệc và biết được một đoạn nhỏ đã được đưa ra. Kết nối qua điện thoại, anh chạy thử thuật toán của mình trên hình ảnh mới. Khi về tới nhà, anh nhìn thấy năm chữ cái trên màn hình. Từ lúc đó, anh làm việc ngày đêm để tinh chỉnh mô hình và nhận diện thêm 10 chữ cái để nhận giải thưởng.

Các nhà nghiên cứu văn bản papyrus đang rất vui mừng. Từ “purple” (màu tía) chưa từng được đọc trong bất cứ văn bản mở nào của các cuộn Herculaneum. Màu tía rất được ưa chuộng trong thế giới La Mã cổ đại và được làm từ sên biển, vì vậy thuật ngữ này có thể chỉ áo choàng, sự phân cấp của những người sử dụng thuốc nhuộm hoặc thậm chí là động vật thân mềm này. Nhưng quan trọng hơn là từ này đã được đọc ra, Nicolardi nói. “Nó trao cho chúng ta tiềm năng về sự phục hồi toàn bộ văn bản trong cuộn giấy”, bao gồm tên và tác giả, vì vậy có thể giúp nhận diện được các tác phẩm và cả thời gian xuất bản nó.

Nhìn cái “vô hình”

Yannis Assael, một nhà khoa học ở Google DeepMind tại London, miêu tả cuộc thi Vesuvius Challenge như một cuộc chơi “độc đáo và truyền cảm hứng”. Đó là một phần của một cú chuyển rộng hơn, ông lưu ý, trong đó AI thêm phần hỗ trợ cho việc nghiên cứu về các văn bản cổ đại. Năm ngoái, Assael và Sommerschield đã công bố một công cụ AI gọi là Ithaca, được thiết kế để giúp các học giả tìm ngày tháng và nguồn gốc của những tấm bản khắc Hy Lạp cổ đại chưa được nhận diện và đưa ra những đề xuất văn bản còn thiếu. Giờ họ nhận được hàng trăm truy vấn mỗi tuần, và đưa ra những nỗ lực tương tự để áp dụng cho nhiều loại ngôn ngữ từ Hàn Quốc đến Akkad được sử dụng trong vùng Lưỡng Hà cổ đại.

Seales hy vọng học máy sẽ giúp mở cái mà ông gọi là “thư viện tàng hình”, bao gồm những văn bản có hiển thị thực sự ngoài đời nhưng không ai có thể mở được, xem được, như những văn bản viết trên giấy da ở trong các cuốn sách thời Trung cổ; các văn bản được tái sử dụng; và cartonnage – một loại vật liệu được sử dụng trong mặt nạ tang lễ của người Ai Cập cổ đại từ Thời kỳ Chuyển tiếp thứ nhất đến thời kỳ La Mã…

Thanh Phương tổng hợp

Nguồn: https://www.nature.com/articles/d41586-023-03212-1

https://www.theguardian.com/science/2023/oct/12/researchers-use-ai-to-read-word-on-ancient-scroll-burned-by-vesuvius

Tác giả

(Visited 10 times, 1 visits today)