Hai điều kiện tiên quyết cho dữ liệu mở

Dữ liệu là nền tảng cơ bản và quan trọng cho hàng loạt các công nghệ đương thời dựa vào nó như trí tuệ nhân tạo (AI), Internet của Vạn vật (IoT), dữ liệu lớn (Big Data). Để quản lý tốt các dữ liệu được hình thành từ số hóa và/hoặc chuyển đổi số, đặc biệt là làm sao để máy đọc được, sử dụng lại được, truy xuất được, và tránh bị lặp lại, thì dữ liệu cần phải thỏa mãn hai yêu cầu sau: (1) mã nhận diện thường trực duy nhất phù hợp với các tiêu chuẩn quốc tế; và (2) cấp phép mở, nhất là đối với các dữ liệu được tạo ra từ cấp vốn nhà nước.

Trong một thế giới ngày càng được số hóa, mở và dựa vào dữ liệu như hiện nay, để quản lý và lần vết được các tài nguyên số ngày càng trở nên thừa thãi trên Internet, cùng với nhu cầu mới của thời đại Cách mạng công nghiệp lần thứ 4 với yếu tố chưa từng có trước đây là máy đọc được, thế giới đã và đang hướng với việc xây dựng hệ thống các mã nhận diện thường trực duy nhất cho các đối tượng số. Hơn nữa, để ‘đứng trên vai những người khổng lồ’ tạo ra các tri thức mới, người ta ngày càng chia sẻ và cho phép truy cập mở trên internet (thông qua cấp phép mở) đối với các tài nguyên tri thức trước đó để bất kỳ ai cũng có khả năng sử dụng lại trong nhiều trường hợp vì bất kỳ mục đích gì, kể cả thương mại hóa nhưng vẫn đảm bảo tôn trọng bản quyền và các quyền hợp pháp của tác giả, tránh mọi rào cản về tài chính, pháp lý và kỹ thuật, đặc biệt là các tài nguyên được tạo ra từ các nguồn vốn cấp của nhà nước.

A. Tiếp cận Dữ liệu Mở Liên kết - LOD (Linked Open Data) với quy tắc 4 điểm và lược đồ tiêu chuẩn 5 sao của Tim Berners-Lee

Vào ngày 27/7/2006, Tim Berners - Lee, nhà phát minh ra Web của các tài liệu siêu văn bản được kết nối với nhau những năm đầu thập niên 1990 nhờ vào việc sử dụng các bộ định vị tài nguyên thống nhất - URL (Uniform Resource Locator), đã đề xuất một khái niệm mới, đó là Web của dữ liệu (Web of Data) được kết nối với nhau với sự sử dụng các mã nhận diện tài nguyên thống nhất - URI (Uniform Resource Identifier). Cùng với nó, ông đã đưa ra đề xuất về Dữ liệu Liên kết (Linked Data) với quy tắc 4 điểm và lược đồ tiêu chuẩn 5 sao cho Dữ liệu Mở Liên kết - LOD (Linked Open Data)1.

A.1 Mã nhận diện thường trực duy nhất trong tiếp cận Dữ liệu Mở Liên kết

Giải thích cho đề xuất này, Tim Berners-Lee nhấn mạnh tới khả năng sinh ra tri thức mới của LOD và khả năng máy đọc được, điều rất quan trọng trong CMCN4 với các công nghệ thời thượng như trí tuệ nhân tạo - AI (Artificial Intelligence), Internet của vạn vật - IoT (Internet of Things), hay Dữ liệu lớn (Big Data), và đặc biệt các mô hình kinh doanh mới dựa vào dữ liệu.

Hình 1. Bên cạnh URI và URL mà Tim Berners – Lee đưa ra còn có khái niệm URN (Uniform Resourse Name) – định danh tài nguyên thống nhất. Tài nguyên có thể là bất cứ thứ gì có thể diễn tả rõ ràng. URI bao trùm cả URL và URN 2.

Đi theo tiếp cận LOD, nhiều quốc gia trên thế giới đã xây dựng cho mình các tài liệu URI. Ví dụ, tại châu Âu, Eurovoc xây dựng tài liệu URI cho từng ngôn ngữ khác nhau của từng quốc gia châu Âu. Gần đây nhất, tài liệu Eurovoc, v4.9.1, 20193 đã được xuất bản ngày 17/04/2019 với các URI.

Trên thực tế, URI và LOD không chỉ được sử dụng ở phạm vi quốc gia, mà còn ở phạm vi khu vực và toàn cầu, cho từng lĩnh vực. Ví dụ:

- LandVoc4 được sử dụng cho Dữ liệu Mở Liên kết (LOD) về đất đai

- AgroVoc5 được sử dụng cho Dữ liệu Mở liên kết (LOD) về nông nghiệp

A.2 Cấp phép mở trong tiếp cận Dữ liệu Mở Liên kết

Theo lược đồ tiêu chuẩn 5 sao cho Dữ liệu Mở Liên kết (LOD) trong đề xuất Web dữ liệu của Tim Berners-Lee như được minh họa trên Hình 2: (1) Để đạt được 1 sao, dữ liệu cần phải được cấp phép mở; (2) Để đạt được 2 sao, dữ liệu cần phải có 1 sao cộng thêm với máy đọc được; (3) Để đạt được 3 sao, dữ liệu cần phải có 2 sao cộng thêm với định dạng mở; (4) Để đạt được 4 sao, dữ liệu cần phải có 3 sao cộng thêm với URI; (5) Để có được 5 sao, dữ liệu cần phải có 4 sao cộng thêm với việc liên kết dữ liệu mức toàn cầu.

Có nghĩa là, để đạt được các mức sao cao hơn khi tuân thủ với tiếp cận Dữ liệu Mở Liên kết (LOD), trước hết, dữ liệu phải đạt được 1 sao, nghĩa là, dữ liệu cần phải được cấp phép mở để trở thành dữ liệu mở một cách rõ ràng.

Hình 2. Lược đồ tiêu chuẩn 5 sao cho Dữ liệu Mở Liên kết (LOD)6

Tuân thủ với định nghĩa về Dữ liệu Mở, chỉ một số giấy phép mở có thể gắn cho dữ liệu để nó trở thành dữ liệu mở. Ngày nay, các giấy phép trong hệ thống giấy phép mở Creative Commons thường được sử dụng nhiều nhất khi cấp phép cho dữ liệu để nó trở thành dữ liệu mở, như các giấy phép CC BY, CC BY-SA và CC0.

Cũng có hệ thống giấy phép khác, như Open Data Commons License (Giấy phép Chung cho Dữ liệu Mở) được sử dụng để cấp phép cho dữ liệu; nó có các giấy phép tương tự như 3 giấy phép được nêu ở trên của Creative Commons, như trên Hình 3.

Hình 3. Các (hệ thống) giấy phép được sử dụng để cấp phép mở cho dữ liệu7

B. Tiếp cận theo nguyên tắc Dữ liệu Tìm thấy được, Truy cập được, Tương hợp được, Sử dụng lại được - FAIR (Findable, Accessible, Interoperable, Reusable)

Để hiểu chi tiết FAIR là gì và giải nghĩa từng ký tự của FAIR, có thể tham khảo phần ‘Định nghĩa FAIR8’ trong tài liệu EC xuất bản năm 2018 với tiêu đề ‘Biến FAIR thành hiện thực’.

FAIR đã bắt đầu được Ủy ban châu Âu sử dụng trong dự án Thí điểm Dữ liệu Nghiên cứu Mở - ORD Pilot (Open Research Data Pilot)9 trong chương trình Horizon 2020 giai đoạn 2014-2020 và hiện nay là cách tiếp cận chủ đạo của EC cho dữ liệu/siêu dữ liệu.

B.1 Mã nhận diện thường trực duy nhất trong tiếp cận Dữ liệu FAIR

Theo tiếp cận FAIR, để có nghĩa và để là FAIR, dữ liệu và các đối tượng số khác đều phải đi với các mã nhận diện thường trực - PID (Persistent Identifier) cùng với siêu dữ liệu và tài liệu liên quan. Các mã nhận diện đó không chỉ là thường trực đối với một đối tượng số, mà thường là duy nhất trên phạm vi toàn cầu. Ví dụ các mã nhận diện thường trực duy nhất như:

- Mã nhận diện đối tượng số - DOI (Digital Object Identifier)

- Mã nhận diện các nhà nghiên cứu / những người đóng góp sáng tạo – ORCID (Open Researcher and Contributor ID);

- Mã nhận diện tài nguyên nghiên cứu - RRID (Research Resource Identifiers)

B.2 Cấp phép mở trong tiếp cận Dữ liệu FAIR

Ngay cả khi chọn tiếp cận FAIR, cấp phép mở cũng là một khía cạnh không thể thiếu. Trong chương trình Horizon 2020, dự án tài trợ Nghiên cứu và Đổi mới sáng tạo tại châu Âu lớn nhất từ trước đến nay (với 80 triệu Euro) giai đoạn 2014-2020, châu Âu đã có Thí điểm Dữ liệu Nghiên cứu Mở - ORD Pilot (Open Research Data Pilot) chọn đi theo tiếp cận FAIR và khuyến cáo cấp phép mở bằng các giấy phép CC BY và CC0 của hệ thống giấy phép Creative Commons cho dữ liệu và siêu dữ liệu10.

Còn trong Kế hoạch S – Sáng kiến truy cập mở cho các nghiên cứu tại châu Âu cho giai đoạn 2021-2027, việc chọn tiếp cận vừa FAIR vừa MỞ là rõ ràng hơn, các giấy phép CC BY, CC BY-SA và CC0 của hệ thống Creative Commons được chỉ ra rõ ràng để cấp phép cho cả các xuất bản phẩm nghiên cứu và các dữ liệu nghiên cứu cùng các siêu dữ liệu11.

Điều này cho thấy, việc cấp phép mở trong tiếp cận Dữ liệu FAIR cũng không khác so với của tiếp cận Dữ liệu Mở Liên kết với lược đồ tiêu chuẩn 5 sao được Tim Berners-Lee đề xuất, như được minh họa trong Hình 3.

C. Mối quan hệ giữa 2 tiếp cận dữ liệu FAIR và MỞ

Để có chi tiết về mối quan hệ giữa FAIR và MỞ, xem phần ‘FAIR và dữ liệu Mở12’ trong tài liệu EC xuất bản năm 2018 với tiêu đề ‘Biến FAIR thành hiện thực’.

Dữ liệu FAIR được giải thích không nhất thiết phải là dữ liệu mở, kể cả trong ngữ cảnh của khoa học mở, vì có những lý do để các dữ liệu riêng tư của cá nhân và dữ liệu bí mật quốc gia không thể là mở được. Quan điểm của EC về dữ liệu như sau:

Dữ liệu có thể là FAIR hoặc Mở, vừa là FAIR vừa là Mở, hoặc không là FAIR không là Mở. Lý tưởng nhất là dữ liệu vừa là FAIR vừa là Mở, vì khi không có các hạn chế sẽ hỗ trợ cộng đồng lớn nhất trong việc cho phép họ sử dụng lại, và sử dụng lại ở phạm vi rộng. Để tối đa hóa những lợi ích của dữ liệu FAIR, và trong ngữ cảnh của các sáng kiến Khoa học Mở, các nguyên tắc FAIR nên được triển khai kết hợp với yêu cầu chính sách rằng dữ liệu nghiên cứu nên là Mở mặc định - đó là, Mở trừ phi có lý do tốt để hạn chế truy cập hoặc sử dụng lại. Trong công thức của Ủy ban châu Âu gần đây, họ đã đưa ra châm ngôn ‘càng mở càng tốt, đóng khi cần thiết’ (as open as possible, as closed as necessary), nó là sự khớp nối hữu ích các nguyên tắc đang được thi hành. Hơn nữa, nên có những nỗ lực để làm cho dữ liệu và siêu dữ liệu nghiên cứu truy cập được mà không lấy tiền của những người sử dụng đầu cuối. Bất kỳ việc lấy tiền nào hay chế độ phục hồi chi phí nào cũng nên là thích hợp và không ở mức làm hạn chế khả năng truy cập.

Từ quan điểm này, EC có khuyến cáo số 17 như sau:

Điều chỉnh phù hợp và hài hòa hóa chính sách dữ liệu FAIR và Mở. Các chính sách nên được điều chỉnh phù hợp và tăng cường để đảm bảo rằng dữ liệu nghiên cứu được nhà nước cấp vốn được làm thành FAIR và Mở, ngoại trừ các hạn chế hợp pháp. Châm ngôn ‘càng mở càng tốt, đóng khi có thể’ nên được áp dụng tương xứng với các nỗ lực thực sự tốt nhất để chia sẻ.

Nói một cách khác, mối quan hệ giữa FAIR và MỞ có thể được diễn giải là tính FAIR (FAIRness) càng cao thì càng nhanh tiệm cận tới tính MỞ (Openness), và ngược lại, tính mở càng cao thì càng nhanh tiệm cận tới tính FAIR.

Hình 4: Mô hình các đối tượng FAIR.

D. Gợi ý cho Việt Nam

Chuyển đổi số ở Việt Nam, dù là đi theo tiếp cận nào về dữ liệu, FAIR hay MỞ, hay vừa FAIR vừa MỞ, cũng đều cần thiết phải xây dựng hệ thống các mã nhận diện thường trực duy nhất cho các đối tượng số, phù hợp với các tiêu chuẩn quốc tế, cho cả các đối tượng hữu hình và vô hình, bao gồm các xuất bản phẩm và dữ liệu nghiên cứu, để có thể quản lý tốt và tin cậy, sử dụng lại được, lần vết được, tránh đúp bản (đúp bản càng nhiều, rác dữ liệu cũng sẽ càng nhiều), và quan trọng hơn, để dữ liệu máy đọc được - một trong những đặc tính quan trọng bậc nhất để tiếp cận tới CMCN4, điều còn chưa rõ (các) cơ quan hay tổ chức nào sẽ chịu trách nhiệm xây dựng chúng. Có lẽ, ngành thư viện Việt Nam sẽ có vai trò chủ đạo, khi kết hợp với ngành công nghệ thông tin và truyền thông và các ngành khác có thể xây dựng hệ thống các mã thường trực duy nhất cho các đối tượng số cho Việt Nam.

Mặt khác, vì tính FAIR càng cao thì càng nhanh tiệm cận tới tính MỞ, trong khi để bất kỳ đối tượng số nào là mở, điều kiện tiên quyết là đối tượng số đó phải được cấp phép mở, công việc hầu như cũng chưa có ở bất kỳ đâu, kể cả trong các cơ sở giáo dục mọi cấp ở Việt Nam, cũng chưa rõ (các) cơ quan nào sẽ chịu trách nhiệm phổ biến nó. Có lẽ là tốt nhất nếu cấp phép mở là môn học bắt buộc và được giảng dạy càng sớm càng tốt trong tất cả các cơ sở giáo dục ở tất cả các cấp, từ cấp tiểu học, đặc biệt trong toàn bộ hệ thống các trường sư phạm trên phạm vi toàn quốc ở Việt Nam.

Hình 5: Mối quan hệ giữa FAIR và MỞ.

Cuối cùng, mọi con đường đều dẫn tới giáo dục. Nó là đặc biệt đúng ở Việt Nam, khi gần 25 triệu người, khoảng 1/4 dân số Việt Nam, đang hằng ngày sống và làm việc trong khu vực giáo dục, nơi có ‘nguyên khí quốc gia’, nơi có lực lượng đông đảo nhất những người có khả năng giành được tri thức, đào sâu tri thức và tạo lập tri thức mới dựa vào tri thức sẵn có của thế giới, rất nhiều trong số chúng là các tri thức MỞ. Không có giáo dục đi cùng, CMCN4 - cách mạng của tri thức - khó có thể hiện thực hóa được trong thực tế, để tạo ra hàng loạt các sản phẩm và dịch vụ ‘Make in Vietnam’ trên diện rộng, theo đúng nghĩa của từ ‘Cách mạng’. □

Các chú giải

1 Tim Berners-Lee, 27/07/2006: Linked Data: https://www.w3.org/DesignIssues/LinkedData.html

2 Daniel Miessler, May 4, 2019: The Difference Between URLs, URIs, and URNs: https://danielmiessler.com/study/url-uri/

3 EU Vocabularies: Eurovoc v4.9.1: https://publications.europa.eu/en/web/eu-vocabularies/news/-/blogs/eurovoc-4-9-1

4 LandPortal: LandVoc: https://landportal.org/voc/landvoc

5 FAO, AIMS: AGROVOC Linked Open Data: http://aims.fao.org/standards/agrovoc/linked-data

6 Tim Berners-Lee: 5 star Open Data: https://5stardata.info/en/

7 Lê Trung Nghĩa biên dịch, 2018: Chỉ dẫn của nhà xuất bản về cấp phép dữ liệu mở: https://vnfoss.blogspot.com/2018/02/chi-dan-cua-nha-xuat-ban-ve-cap-phep-du.html

8 Lê Trung Nghĩa biên dịch, 2019: Biến FAIR thành hiện thực: https://www.dropbox.com/s/wtiraui8svilgei/turning_fair_into_reality_1-Vi-30042019.pdf?dl=0, tr. 30-32

9 Lê Trung Nghĩa biên dịch, 2019: Hướng dẫn của Hội đồng Nghiên cứu châu Âu về Triển khai Truy cập Mở tới các Xuất bản phẩm Khoa học và Dữ liệu Nghiên cứu trong các dự án được Hội đồng Nghiên cứu châu Âu hỗ trợ trong Horizon 2020: https://www.dropbox.com/s/lb0i9vr3t6cl1dt/h2020-hi-erc-oa-guide_en_Vi-06052019.pdf?dl=0, trang 8-9

10 Lê Trung Nghĩa biên dịch, 2019: Hướng dẫn của Hội đồng Nghiên cứu châu Âu (ERC) về Triển khai Truy cập Mở tới các Xuất bản phẩm Khoa học và Dữ liệu Nghiên cứu trong các dự án được Hội đồng Nghiên cứu châu Âu hỗ trợ trong Horizon 2020: https://www.dropbox.com/s/lb0i9vr3t6cl1dt/h2020-hi-erc-oa-guide_en_Vi-06052019.pdf?dl=0, tr. 8, 10.

11 Lê Trung Nghĩa biên dịch, 2019: Làm cho Truy cập Mở đầy đủ và tức thì thành hiện thực: https://www.dropbox.com/s/qv5adcecb47g65d/271118_cOAlitionS_Guidance-Vi-10042019.pdf?dl=0, phần ‘Cấp phép và các quyền’, tr. 7.

12 Lê Trung Nghĩa biên dịch, 2019: Biến FAIR thành hiện thực: https://www.dropbox.com/s/wtiraui8svilgei/turning_fair_into_reality_1-Vi-30042019.pdf?dl=0, tr. 34-36

Giấy phép nội dung:

https://creativecommons.org/licenses/by/4.0/

Các nguyên tắc hướng dẫn FAIR: Để tìm thấy được (Findable) F1: (siêu) dữ liệu được gán một mã nhận diện thường trực và duy nhất trên toàn cầu F2: dữ liệu được mô tả với rất nhiều siêu dữ liệu (định nghĩa bởi khoản R1 bên dưới) F3: siêu dữ liệu phải bao gồm mã định danh những dữ liệu mà nó mô tả một cách rõ ràng và chi tiết F4: (siêu)dữ liệu phải được xác định hoặc đánh dấu chỉ mục trong một kho tìm kiếm được Để truy cập được (Accessible) A1. (siêu) dữ liệu có thể truy xuất được bằng mã nhận diện của chúng nhờ vào giao thức liên lạc được chuẩn hóa A1.1: Giao thức đó phải mở, miễn phí và có thể áp dụng trên toàn cầu A1.2: Giao thức đó cho phép một quá trình ủy quyền và xác thực khi cần thiết A2. Siêu dữ liệu có thể truy cập được kể cả khi dữ liệu không còn nữa Để tương hợp được (Interoperable): I1: (siêu) dữ liệu sử dụng một ngôn ngữ chính thức, có thể tiếp cận được, chia sẻ được, và áp dụng được trong việc trình bày tri thức. I2. (siêu) dữ liệu sử dụng từ vựng dựa trên nguyên tắc của FAIR I3. (siêu) dữ liệu bao gồm những tham chiếu hợp lệ (qualified reference) đến các (siêu) dữ liệu khác Để sử dụng lại được (reusable) R1. Siêu (dữ liệu) được mô tả bằng nhiều thuộc tính chính xác và liên quan R1.1: (siêu) dữ liệu được phát hành với giấy phép sử dụng dữ liệu rõ ràng và có thể truy cập được. R1.2: (siêu) dữ liệu gắn liền với nguồn gốc chi tiết của dữ liệu R1.3: (siêu) dữ liệu phải đáp ứng các tiêu chuẩn của cộng đồng liên quan đến lĩnh vực của dữ liệu

Trở lại Văn hóa - Xã hộiTrở lại Văn hóa - Xã hội