Xây dựng cơ sở dữ liệu văn hóa: Số hóa để mở

Số hóa là quá trình tất yếu của Việt Nam hay của bất cứ nền văn hóa nào trên thế giới nhưng để những tác phẩm văn hóa trong định dạng mới có thể mang lại giá trị mới thì quá trình này cần được song hành cùng mở.

Thủ tướng Nguyễn Xuân Phúc chiêm ngưỡng bức họa “Em Thúy” của danh họa Trần Văn Cẩn trong chuyến thăm Bảo tàng Mỹ thuật Việt Nam. Ảnh: vtv.vn

Khái niệm số hóa đã được nhắc đến Việt Nam vài năm nay kèm với một vài hoạt động của khối nhà nước và tư nhân, ví dụ như Thư viện Quốc gia có kho số hóa cổ tịch Hán Nôm với tổng số 133.495 trang sách thuộc 1.907 tài liệu, Bảo tàng Lịch sử Quốc gia có trải nghiệm bảo tàng ảo 3D các phòng trưng bày từ thời tiền sử cho tới thời Trần (kết hợp với công ty Vietsoftpro)… Sự chủ động đón nhận xu hướng thế giới này ở Việt Nam mới đây đã được tiếp sức bằng Quyết định số 1296/QĐ-TTg phê duyệt Chương trình “Nghiên cứu, xây dựng cơ sở dữ liệu và công bố tác phẩm văn học nghệ thuật Việt Nam trên nền tảng cách mạng công nghiệp lần thứ tư” – một chương trình chính thức ở tầm quốc gia dành cho việc số hóa các tác phẩm văn hóa Việt Nam, qua đó đem lại cho kho báu dân tộc mà chúng ta đang sở hữu này một diện mạo mới bên cạnh hình thức thể hiện truyền thống.

Điều này khiến ngay cả những người ngoài ngành văn hóa cũng cảm thấy vui lây, không chỉ vì cảm thấy tự hào về việc có thể giới thiệu một cách dễ dàng hơn kho báu ấy với bạn bè trên thế giới mà ở góc độ của người làm công nghệ, họ đã nhìn thấy nhiều cơ hội đem lại giá trị mới cho nó ở phía trước.

 

Nhưng đạt được điều đó, câu chuyện sẽ không dừng lại ở việc số hóa.

 

Điểm xuất phát

 

Quyết định số 1296/QĐ-TTg có nêu rất rõ mục tiêu chung của chương trình là xây dựng hệ thống tư liệu, kho dữ liệu số và công bố các công trình, tác phẩm văn học, nghệ thuật có giá trị của nền văn học, nghệ thuật Việt Nam trên cơ sở ứng dụng các thành tựu mới của KH&CN. Để đạt được mục tiêu lớn này có các chỉ tiêu công việc hết sức cụ thể như công bố 500 công trình, đầu sách truyền thống (sách in) tuyển chọn từ kho tài liệu các công trình, tác phẩm văn học nghệ thuật trong giai đoạn từ thế kỷ X đến năm 1945; công bố 100 tác phẩm sách 3D giới thiệu các công trình, tác phẩm nghệ thuật có giá trị lịch sử, kiến trúc nghệ thuật tiêu biểu; công bố 2.000 đầu mục dữ liệu số về các công trình, tác phẩm văn học, nghệ thuật dưới dạng văn bản, hiện vật đơn chiếc, các tác phẩm phi văn bản và tác phẩm dạng khối; xây dựng 50 phim tài liệu, phim chuyên đề giới thiệu về tác giả, tác phẩm văn học, nghệ thuật tiêu biểu và các hoạt động, sinh hoạt văn hóa, nghệ thuật cộng đồng đặc sắc trong đời sống xã hội; tạo lập Hệ thống phần mềm để lưu trữ, quản lý các sản phẩm của chương trình (sách 3D, dữ liệu số, phim tài liệu…), phục vụ tra cứu, khai thác cơ sở dữ liệu số về văn học nghệ thuật Việt Nam.

Nhận xét về chương trình, TS. Lưu Vĩnh Toàn (công ty Move Digital AG, Thụy Sĩ) cho rằng, về thực chất, chương trình này là việc số hóa mảng văn hóa – nghệ thuật hiện đang do Bộ VHTT&DL đang quản lý. Với kinh nghiệm của một nhà khoa học dữ liệu từng tham gia hỗ trợ về công nghệ cho nhiều công ty của nước ngoài, anh nhận thấy “việc lập các cơ sở dữ liệu các tác phẩm văn hóa nghệ thuật khả thi trong thời đại số hiện nay và là việc nên làm”. Những công nghệ nền tảng mà các nhà nghiên cứu trong các trường, viện Việt Nam đã làm chủ đều có thể ứng dụng để số hóa được các dạng tác phẩm khác nhau, từ dạng văn bản đến dạng hình khối, với phần ký tự, hình ảnh mô tả, tạo dựng ứng dụng 3D, thực tại ảo (virtual reality), âm thanh lên hệ thống lưu trữ. Việc hiển thị những dữ liệu trên các kho dữ liệu số/nền tảng số phụ thuộc vào việc cài đặt các thuật toán về thu thập, đánh chỉ số, xếp hạng để phục vụ việc tra cứu nhanh hơn, thuận tiện hơn…

Việc ứng dụng công nghệ mới để tạo ra một phiên bản số cho các tác phẩm sẽ đem lại nhiều điều thú vị, TS. Lưu Vĩnh Toàn mường tượng. “Một ví dụ là các tác phẩm văn học được viết bằng chữ Hán hay chữ Nôm vốn được ít người biết đến, do đó sẽ rất thú vị nếu ai muốn tìm hiểu đều có thể thấy được văn bản nguyên mẫu. Thậm chí, nếu các cơ sở dữ liệu đó có cài đặt thêm các ứng dụng nhận dạng ký tự, tự động biên dịch thì còn có thể giúp người truy cập có thể tự tra cứu các từ gốc mà chưa cần biết nhiều về ngôn ngữ cổ, qua đó có thêm thông tin về tác phẩm này”, anh nói. Nhưng việc lập các cơ sở dữ liệu số không chỉ để thỏa mãn những tò mò đơn thuần mà còn dành cho các nhà nghiên cứu khi “các nghiên cứu chuyên sâu do những chuyên gia đã thực hiện có thể gắn kèm với tác phẩm đã được số hóa này để sẵn sàng cho những người quan tâm tra cứu, tìm hiểu”, anh lưu ý đến lợi ích mà việc số hóa có thể đem lại.

Lập các cơ sở dữ liệu như vậy còn có thể tạo ra một không gian hưởng thụ văn hóa mới, không phụ thuộc vào không gian truyền thống của các bảo tàng, thư viện… như cách thông thường chúng ta vẫn thường làm, vốn bị hạn chế trong thời kỳ diễn ra đại dịch Covid-19. “Có thể coi đây là một dạng xây dựng ‘bảo tàng số’ để chúng ta có thể dễ dàng tìm kiếm, tra cứu, chiêm nghiệm từng hiện vật văn hóa bằng trực giác nhưng cũng dễ tương tác để đào sâu các yếu tố liên quan với sự hỗ trợ của các công nghệ số”, TS. Lưu Vĩnh Toàn nhấn mạnh đến vai trò của công nghệ trong việc hỗ trợ thưởng thức nghệ thuật. Rõ ràng theo cách này thì có thể là người hưởng thụ văn hóa sẽ có sự thấu hiểu ở mức sâu sắc hơn và trên diện rộng hơn về những tác phẩm văn hóa nghệ thuật của dân tộc.

Thư viện quốc gia đã số hóa các cổ tịch Hán Nôm. Nguồn: Minh An/kinhtedothi.

Với quan sát của người quan tâm đến công việc số hóa ở nhiều lĩnh vực ngành nghề của Việt Nam , anh nhận xét, sau khi được số hóa, một số tác phẩm văn hóa, nghệ thuật đang “tản mạn” trong thế giới số, “có hình ảnh ở chỗ này, chỗ kia, được nhắc đến ở chỗ này, chỗ kia nhưng chưa có một cơ sở dữ liệu tập trung để mọi người tìm đến một phiên bản gần ‘gốc’ nhất”. Do đó, việc tạo ra một cơ sở dữ liệu như vậy sẽ là một giải pháp hữu hiệu không chỉ để bảo tồn tác phẩm nghệ thuật mà còn đưa được người quan tâm đến phiên bản tác phẩm gần ‘gốc’ nhất, đầy đủ nhất với nhiều thông tin đi kèm để có thể lấy đó làm nền tảng cho các thông tin và sản phẩm tham chiếu trong tương lai. “Hiện Wikipedia đang triển khai một phần ý tưởng này trong việc số hóa một số tác phẩm văn học tiêu biểu của Việt Nam, ví dụ như ‘Truyền kỳ mạn lục’ của Nguyễn Dữ1, nhưng do đặc thù của nền tảng Wikipedia quá mở để biên tập, chỉnh sửa, lại không có nhiều công cụ hỗ trợ chuyên sâu cho việc lưu trữ hiển thị tác phẩm văn hóa nghệ thuật… nên không phải là nơi lý tưởng để lưu trữ dạng dữ liệu này”, TS. Lưu Vĩnh Toàn cho biết.

Tuy nhiên, để có một cơ sở dữ liệu tốt như mong đợi thì nhiệm vụ của những người làm công nghệ không phải đơn thuần chỉ là số hóa. Sự khác biệt của dữ liệu tác phẩm văn hóa còn đòi hỏi một cách nhìn khác cho quá trình này, đó là việc phải giải quyết được những yêu cầu rất riêng như ‘làm thế nào để có thể xác thực đó là các tác phẩm, hiện vật gốc?’, ‘Liệu quá trình lưu trữ, bảo quản các vật thế đó có xảy ra mất mát, có bằng chứng chứng minh, xác thực một cách khoa học không?’, ‘Việc tái hiện nó thế nào cho logic, dễ hiểu và hấp dẫn đối với người xem?’… “Tôi cũng cảm thấy khá e ngại là nếu vì lý do nào đấy như thiếu kinh phí hay người thực hiện việc số hóa không có nhiều chuyên môn, không đam mê với văn hóa nghệ thuật thì có thể dẫn đến việc số hóa ‘sơ sài’, làm cho có… Điều này có thể sẽ làm mất đi cái ‘hồn’ và ý nghĩa của những tác phẩm văn hóa nghệ thuật”, TS. Lưu Vĩnh Toàn lưu ý.

Cần sẵn sàng với mở

 

Câu chuyện số hóa các tác phẩm văn hóa, nghệ thuật của Việt Nam mới ở giai đoạn khởi đầu. Để có thể mang lại những giá trị mới cho kho di sản và tri thức này, chúng cần được mở với công chúng, không phân biệt người truy cập. Chuyên gia Lê Trung Nghĩa (Ban Tư vấn Phát triển giáo dục mở, Hiệp hội các trường đại học, cao đẳng Việt Nam) cho rằng, Việt Nam không nên đứng ngoài xu hướng thế giới mở hiện nay. “Trên thế giới có hẳn OpenGLAM, một phong trào kêu gọi mở trong các lĩnh vực trưng bày, thư viện, lưu trữ, bảo tàng. Nếu chúng ta làm đúng theo OpenGLAM thì sẽ thu được rất nhiều lợi ích như các bảo tàng ở Thụy Điển, Đức, Mỹ… đã đạt được”.

Muốn làm được điều này, chương trình số hóa các tác phẩm văn học nghệ thuật của Việt Nam cần có thêm yếu tố mở. “Tôi thấy về cơ bản nội dung chương trình của Việt Nam đều tương đồng so với quốc tế và điểm khác biệt lớn nhất chỉ là chữ ‘mở’ thôi. Đọc đi đọc lại, tôi không nhìn thấy gì giống OpenGLAM trong chương trình này cả”, chuyên gia Lê Trung Nghĩa nhận xét, “trong khi chỉ với chữ mở trong OpenGLAM nó làm thay đổi tất cả hầu như mọi khía cạnh của việc số hóa”.

Lấy ví dụ về Europeana – một dự án số hóa do Ủy ban châu Âu tài trợ tạo ra nền tảng tìm kiếm trên cơ sở kết nối với những bộ cơ sở dữ liệu về sách, tranh, phim và các tài liệu lưu trữ được số hóa của các thư viện, bảo tàng, phòng trưng bày châu Âu, ông cho rằng, việc xác định mở ngay từ khi lập dự án đã đem lại thành công ngay trong quá trình thực hiện. Với tiêu chí mở, Europeana xác định chiến lược phát triển cơ sở dữ liệu là “hãy để người truy cập/người hưởng thụ dẫn dắt”, “trao nội dung đúng cho đúng người vào đúng thời điểm”, từ đó nêu ba mục tiêu ưu tiên là cải thiện chất lượng dữ liệu, mở dữ liệu và tạo giá trị cho đối tác (người sử dụng, người tham gia số hóa).

Việc trao quyền sử dụng cho người truy cập khiến những người thực hiện Europeana tập trung vào chất lượng dữ liệu với tiêu chí tìm thấy được, đọc được, tiêu chuẩn hóa được, nhìn thấy được để dễ dàng sử dụng lại cho công việc, học tập và giải trí. Mặt khác, do hướng đến nhu cầu của người sử dụng, những người thực hiện dự án có thể tinh chỉnh lại các tư liệu số hóa theo phản hồi của người truy cập, đồng thời có được thông tin về các chủ đề để ưu tiên số hóa, khía cạnh chất lượng để ưu tiên cải tiến trước… Bằng việc kết nối nội dung với nhu cầu người sử dụng, họ có thể tham gia bản thảo với bộ phận kỹ thuật để cải thiện chất lượng dữ liệu, qua đó góp phần tạo thương hiệu tin cậy, sử dụng được. “Cách đó đã góp phần đem lại 58 triệu tài nguyên được cấp phép mở với những điều khoản rất rõ ràng cho người sử dụng biết họ có quyền gì khi sử dụng các tư liệu số đó”, chuyên gia Lê Trung Nghĩa nói.

Nhìn từ thành công của Europeana và phong trào OpenGLAM, ông cho rằng “bất kỳ nơi nào ở Việt Nam mà học được những thứ như vậy của Europeana đều tuyệt vời, nhưng rất không dễ. Chắc là một phần nhỏ nào đó làm được như Europeana cũng sẽ bước lên vị trí dẫn đầu Việt Nam về tinh thần mở rồi”.

Triển lãm “Thư pháp của các Hoàng đế nhà Nguyễn” do Trung tâm Lưu trữ quốc gia I – Cục Văn thư và Lưu trữ nhà nước, khai mạc ngày 3/1/2020. Ảnh: Mỹ Hạnh

Điều ông e ngại nhất là việc những người thực hiện chương trình chưa nghĩ đến việc cấp phép mở cho dữ liệu – đây không chỉ là một trong những điều kiện tiên quyết để dữ liệu trở thành dữ liệu mở mà còn sẽ làm vô hiệu hóa vấn đề bản quyền. Là một chuyên gia có kinh nghiệm về mở, ông dự đoán về một tương lai không có cấp phép mở của các cơ sở dữ liệu số văn hóa “có thể sẽ dẫn đến khả năng tranh chấp bản quyền và cũng có thể khi số hóa xong, các tác phẩm số bỗng nhiên lại có bản quyền. Sự phi lý sẽ nằm đúng ở đây!” Ông phân tích một số trường hợp có thể xảy ra, “đôi khi việc đưa các hiện vật có từ 1.000 năm trước và đã thuộc phạm vi công cộng trở thành một hiện vật dưới dạng kỹ thuật số do ai đó đứng ra số hóa nó nắm bản quyền có thể làm mất cơ hội tiếp cận của tất cả những người còn lại, qua đó làm giới hạn việc quảng bá các hiện vật đó ở tầm thế giới”. Người ta có thể không nghĩ tới là những tư liệu, sách vở, tác phẩm nghệ thuật đang nằm trong phạm vi công cộng thì khi số hóa, phiên bản số của nó cũng phải nằm trong phạm vi công cộng.

Mặt khác, ông lưu ý, nếu gắn bản quyền vào các tác phẩm được số hóa, cũng cần chiểu theo Luật Sở hữu trí tuệ sửa đổi năm 2019 để biết là một tác phẩm văn hóa sẽ nằm trong phạm vi công cộng khi tác giả của nó qua đời từ 50 đến 70 năm, tùy theo từng loại hình nghệ thuật. “Tất cả các hiện vật của bất kỳ tác giả nào trong viện bảo tàng từ thế kỷ 19 đổ về trước thường sẽ tuân theo kỳ hạn thời gian này. Theo nghĩa đó thì các tác phẩm trong mốc thời gian như vậy phải được mở với công chúng”, ông nhấn mạnh.

Du khách nước ngoài tham quan Triển lãm mỹ thuật Khu vực I (Hà Nội) lần thứ 25 năm 2020. Nguồn: toquoc.vn

Tuy nhiên theo xu hướng OpenGLAM mà nhiều bảo tàng trên thế giới đang áp dụng thì các hoạt động của bảo tàng và khả năng truy cập dữ liệu của người sử dụng không bị bản quyền chắn đường. Việt Nam cũng không nên nằm ngoài xu thế đó. Chuyên gia Lê Trung Nghĩa cho rằng, “Để tạo ra các tri thức mới, người ta ngày càng chia sẻ và cho phép truy cập mở (thông qua cấp phép mở) các tài nguyên tri thức để bất kỳ ai cũng có khả năng sử dụng lại vì bất kỳ mục đích gì, kể cả mục đích thương mại, nhưng phải đảm bảo tôn trọng bản quyền và các quyền hợp pháp của tác giả, tránh mọi rào cản về tài chính, pháp lý và kỹ thuật, đặc biệt là các tài nguyên được tạo ra từ các nguồn vốn cấp của nhà nước”.

Nếu trong trường hợp còn lấn cấn về chuyện bản quyền và mở thì chúng ta ứng xử như thế nào với các cơ sở dữ liệu số có được từ việc thực hiện chương trình? Ông trầm ngâm, “nếu chúng ta tranh cãi việc này là đúng hay sai thì có lẽ sẽ mất rất nhiều thời gian nữa mới có thể ngã ngũ và có thể là việc số hóa văn hóa sẽ không thể đạt được thành công như quốc tế”. Có lẽ, quan điểm của ông trùng khớp với những quan điểm Taco Dibbits, Giám đốc phụ trách bộ sưu tập của Rijksmuseum – bảo tàng quốc gia Hà Lan dành riêng cho nghệ thuật và lịch sử ở Amsterdam, trả lời New York Times, khi giải thích vì sao bảo tàng lại trao toàn bộ quyền sử dụng các tác phẩm nghệ thuật với chất lượng hình ảnh, màu sắc đẹp như nguyên tác mà họ đã số hóa “Thật quá khó để kiểm soát bản quyền trên internet nên chúng tôi đã quyết định thà để mọi người sử dụng hình ảnh với độ phân giải cao của những bức họa như ‘Milkmaid’ (người rót sữa) từ Rijksmuseum hơn là sử dụng phiên bản rất tồi”.

Hành động mở của Rijksmuseum khiến phiên bản số các kiệt tác số chất lượng cao được nhiều nền tảng số khác sử dụng, khiến những phiên bản chất lượng kém nhanh chóng biến mất và nếu tìm kiếm trên Google thì người ta thấy phiên bản có gốc tích từ Rijksmuseum ở trên trang đầu. Nếu theo cách làm của mở, thì rất có thể, một ngày nào đó, những phiên bản số đẹp của các tác phẩm văn hóa Việt Nam từ những bảo tàng, phòng trưng bày Việt Nam cũng có được vị trí như thế. “Đi theo mở, có thể cần phải biết từ bỏ cái lợi nhỏ nhoi của một nhóm người nhỏ nhoi thì chúng ta mới có nhiều cơ hội để có được cái lợi lớn hơn nhiều, đôi khi là cái lợi của một ngành, của một quốc gia”, chuyên gia Lê Trung Nghĩa nói.

1. Ví dụ https://vi.wikipedia.org/wiki Truy%E1%BB%81n_k%E1% BB%B3_m%E1%BA%A1n_ l%E1%BB%A5c)

Tác giả

(Visited 28 times, 1 visits today)