Sử dụng dữ liệu mở của khu vực công

Là một văn bản được chờ đón từ lâu, Nghị định số 47/2020/NĐ-CP về Quản lý, kết nối và chia sẻ dữ liệu số của cơ quan nhà nước đánh dấu một bước tiến tích cực trong chương trình chuyển đổi số quốc gia ở Việt Nam. Mặc dù vậy, để đưa nội dung của Nghị định vào cuộc sống, chắc chắn không phải là công việc có thể làm được ngay bởi nó liên quan đến việc sử dụng Dữ liệu Mở của chính phủ.

Dễ nhận thấy là không có điều khoản nào trong Nghị định 47 nói tới các giấy phép mở hoặc cấp phép mở, điều thường thấy được nêu rõ ràng khi nói về dữ liệu mở trong các tài liệu, trên các cổng hoặc website dữ liệu mở của các chính phủ nước ngoài. Bên dưới là vài ví dụ.

Cổng dữ liệu mở của Chính phủ Vương quốc Anh (https://data.gov.uk/) sử dụng giấy phép chính phủ mở phiên bản 3.0 (https://www.nationalarchives.gov.uk/doc/open-government-licence/version/3/) cho các dữ liệu mở chính phủ, theo đó, người cấp phép (các cơ quan của
chính phủ) trao cho người sử dụng một giấy phép toàn cầu, không phải trả phí bản quyền, không độc quyền để sử dụng thông tin. Người sử dụng được tự do: sao chép, xuất bản, phân phối, và truyền thông tin đó; tùy biến thích nghi thông tin (là có thể sửa đổi thông tin đó theo ý mình cho phù hợp với hoàn cảnh của mình); khai thác thông tin đó cho các mục đích thương mại và phi thương mại, ví dụ bằng việc kết hợp nó với thông tin khác, hoặc bằng việc đưa nó vào trong sản phẩm hoặc ứng dụng của riêng người sử dụng.

Dù trách nhiệm và quyền hạn của người sử dụng còn được chi tiết hơn nữa trong giấy phép này, thì chúng ta có thể thấy ngay là người sử dụng có thể sửa đổi để sử dụng các tập hợp dữ liệu mà chính phủ đưa ra trên cổng dữ liệu mở đó chứ không phải chỉ được phép sử dụng chúng nguyên trạng như được công bố trên cổng dữ liệu mở.

Một ví dụ khác, cổng dữ liệu mở của Chính phủ Singapore (https://data.gov.sg/) sử dụng giấy phép dữ liệu mở Singapore phiên bản 1.0 (https://data.gov.sg/open-data-licence), với nó người sử dụng có thể:

– Sử dụng, truy cập, tải về, sao chép, phân phối, truyền đi, sửa đổi các tập hợp dữ liệu, hoặc bất kỳ các bản phân tích hay ứng dụng nào, dù để sử dụng thương mại hoặc phi thương mại.

– Cấp phép con cho các tập hợp dữ liệu nếu điều đó là cần thiết để xúc tác cho người sử dụng ứng dụng và/hoặc website của bạn (“những người được cấp phép con của bạn”), để sử dụng ứng dụng hoặc truy cập website của bạn.

– Nếu những người được cấp phép con của bạn đòi hỏi các quyền bổ sung, thì ứng dụng và/hoặc website của bạn nên chỉ cho những người được cấp phép con của bạn để giành được giấy phép thích hợp trên data.gov.sg.

Từ các cổng dữ liệu mở của Vương quốc Anh và Singapore ở trên, chúng ta có thể thấy ngay là người sử dụng có quyền để sửa đổi và/hoặc tùy biến thích nghi các tập hợp dữ liệu một cách rõ ràng thông qua các giấy phép mở, chứ không phải chỉ được phép sử dụng nguyên trạng các tập hợp dữ liệu trên cổng dữ liệu mở đó.

Theo tài liệu “Khóa học cơ bản về Dữ liệu Mở trong chương trình học tập điện tử trên Cổng Dữ liệu châu Âu” do Viện Dữ liệu Mở xuất bản 2018 1, nếu không có giấy phép, dữ liệu là không thực sự mở. Giấy phép nói cho bất kỳ ai rằng họ có thể truy cập, sử dụng và chia sẻ dữ liệu của bạn. Khi không có giấy phép, dữ liệu có thể ‘sẵn sàng công khai’, nhưng những người sử dụng sẽ không có sự cho phép để truy cập, sử dụng và chia sẻ nó theo luật bản quyền hoặc luật về cơ sở dữ liệu. Nói cách khác, việc cấp phép mở cho phép các doanh nghiệp, các công ty khởi nghiệp, các chính phủ và các cá nhân đổi mới sáng tạo với dữ liệu mở một cách chắc chắn và rõ ràng.

Cũng theo tài liệu trên, để giúp cho các doanh nghiệp, các công ty khởi nghiệp, các chính phủ và các cá nhân có cơ hội lớn nhất để đổi mới sáng tạo, dữ liệu mở thường được cấp các giấy phép như CC0, CC BY, CC BY-SA trong hệ thống các giấy phép mở Creative Commons hoặc các giấy phép tương tự trong các hệ thống giấy phép mở khác; và chúng đều là các giấy phép tuân thủ định nghĩa của dữ liệu mở 2.


Hình 1. Các giấy phép cho dữ liệu mở3.

Ngoài ra, các giấy phép mở CC0, CC BY, CC BY-SA hoặc tương đương cũng là các giấy phép mở có mức độ tự do lớn nhất, chúng trao cho các doanh nghiệp, công ty khởi nghiệp và người sử dụng các quyền tự do để chia sẻ, pha trộn – tùy biến thích nghi, và kể cả thương mại hóa các tập hợp dữ liệu mà chúng được gắn vào, như trên Hình 2.

Không có điều khoản nào trong Nghị định 47 nêu về giấy phép và/hoặc cấp phép mở cho dữ liệu mở, có lẽ vì thế rất khó để các doanh nghiệp, công ty khởi nghiệp và người sử dụng xác định bản thân họ được trao các quyền gì và có bổn phận gì khi sử dụng dữ liệu mở của chính phủ, nhất là khi các diễn giải ở các điều, các khoản trong Nghị định 47 rất khó để họ có thể triển khai thực hiện được trong thực tế.

Ví dụ: Trích dẫn từ Nghị định 947:

Điều 18. Quy định sử dụng dữ liệu mở của cơ quan nhà nước

1. Cơ quan, tổ chức, cá nhân được phép tự do sao chép, chia sẻ, trao đổi, sử dụng dữ liệu mở hoặc kết hợp dữ liệu mở với dữ liệu khác; sử dụng dữ liệu mở vào sản phẩm, dịch vụ thương mại hoặc phi thương mại của mình.

2. Cơ quan, tổ chức, cá nhân phải trích dẫn, ghi nhận thông tin sử dụng dữ liệu mở trong các sản phẩm, tài liệu liên quan có sử dụng dữ liệu mở.

3. Dữ liệu mở của cơ quan nhà nước là dữ liệu nguyên trạng như được công bố; không bao gồm các hình thức trình bày và các thông tin phát sinh từ dữ liệu mở đã được cung cấp.

4. Cơ quan, tổ chức, cá nhân không được bán dữ liệu mở đã được khai thác nguyên trạng từ cơ quan nhà nước cho tổ chức, cá nhân khác. Khi sử dụng dữ liệu mở trong sản phẩm, dịch vụ thương mại của mình phải cung cấp miễn phí dữ liệu mở kèm theo sản phẩm, dịch vụ thương mại đó.

5. Cơ quan nhà nước không chịu trách nhiệm cho bất kỳ tổn thất hoặc thiệt hại phát sinh của cơ quan, tổ chức, cá nhân do việc sử dụng dữ liệu mở gây ra.

Với các quy định như ở trên, làm thế nào các doanh nghiệp, các công ty khởi nghiệp có thể sử dụng được các dữ liệu nguyên trạng như được công bố, không có bất kỳ sửa đổi nào mà chúng vẫn phù hợp với các ứng dụng và/hoặc dịch vụ cung cấp cho xã hội và những người tiêu dùng dựa vào các dữ liệu mở đó của chính phủ? Ràng buộc này, nếu so sánh với mức độ tự do của các giấy phép mở trong hệ thống giấy phép Creative Commons như ở Hình 2, là tương đương với hai giấy phép có mức độ tự do thấp nhất – CC BY-ND và CC BY-NC-ND, với yêu cầu “Không có tác phẩm phái sinh” hay không được sửa đổi bản gốc. Ràng buộc như vậy hạn chế đi rất nhiều hoặc làm triệt tiêu hoàn toàn sự đổi mới sáng tạo của chính các doanh nghiệp và các công ty khởi nghiệp đối với dữ liệu mở của chính phủ; và như trên Hình 2, nó không phù hợp với dữ liệu mở.


Hình 2. Các giấy phép CC0, CC BY và CC BY-SA trong hệ thống các giấy phép mở Creative Commons trao cho người sử dụng các quyền tự do để chia sẻ, pha trộn – tùy biến thích nghi và thương mại hóa.

Ở một góc nhìn khác, dữ liệu mở của chính phủ thường không hoàn chỉnh và chất lượng thấp, như được nêu trong tài liệu “Báo cáo toàn cầu, ấn bản lần 4” năm 2017 về dữ liệu mở của tổ chức Open Data Barometer 4. Vì vậy, việc cho phép sửa đổi, tùy biến thích nghi với điều kiện phải thừa nhận ghi công các dữ liệu mở gốc của chính phủ và/hoặc đi kèm với khẳng định trách nhiệm của các doanh nghiệp hoặc các công ty khởi nghiệp tạo ra dữ liệu mở phái sinh dựa vào dữ liệu mở gốc ban đầu đó của chính phủ, để trao cơ hội cho họ hoàn chỉnh và nâng cao chất lượng các dữ liệu mở đó là rất cần thiết và nên thông qua việc cấp phép mở một cách rõ ràng và chắc chắn. Chính sự tùy biến thích nghi các dữ liệu mở gốc của chính phủ làm cho chúng trở nên hoàn chỉnh hơn, chất lượng cao hơn và phù hợp với các ứng dụng và/hoặc dịch vụ mang tính đổi mới sáng tạo của các doanh nghiệp, công ty khởi nghiệp để cung cấp cho xã hội.

Cũng theo báo cáo này, cho tới hết năm 2017, có tới 90% các tập hợp dữ liệu của các chính phủ trên thế giới là không mở. Có lẽ vì vậy, những gì hiện có trong Nghị định 47 cũng phản ánh hiện thực trong giai đoạn sơ khởi của dữ liệu mở ở Việt Nam, khi mà các dữ liệu được coi là ‘dữ liệu mở’ nhưng thực sự lại chưa là ‘dữ liệu mở’ theo định nghĩa và các quy ước quốc tế và việc sửa đổi bổ sung Nghị định 47 vì thế rất nên được đặt ra càng sớm càng tốt, đặc biệt ở khía cạnh ‘Cấp phép mở là điều kiện tiên quyết của dữ liệu mở!’.□

 

Các tham chiếu

1 Lê Trung Nghĩa biên dịch, 2020: Khóa học cơ bản về Dữ liệu Mở trong chương trình học tập điện tử trên Cổng Dữ liệu châu Âu, Viện Dữ liệu Mở xuất bản 2018. Bài 4: Vì sao chúng ta cần cấp phép: https://giaoducmo.avnuc.vn/du-lieu-mo/bai-4-vi-sao- chung-ta-can-cap-phep-140.html

2. Lê Trung Nghĩa biên dịch, 2020: Khóa học cơ bản về Dữ liệu Mở trong chương trình học tập điện tử trên Cổng Dữ liệu châu Âu, Viện Dữ liệu Mở xuất bản 2018. Bài 1: Dữ liệu Mở là gì?: https://giaoducmo.avnuc.vn/du-lieu-mo/bai-1-du-lieu-mo-la-gi-137.html

3. Lê Trung Nghĩa, 2019: Hai điều kiện tiên quyết cho dữ liệu mở. Tạp chí Tia sáng, 26/08/2019: http://tiasang.com.vn/-doi-moi-sang-tao/Hai-dieu-kien-tien-quyet-cho-du-lieu-mo-20624

4. Lê Trung Nghĩa biên dịch, 2017:  Báo cáo toàn cầu, ấn bản lần 4, Open Data Barometer xuất bản tháng 5/2017: https://www.dropbox.com/s/kr76bcce1jd7pmq/ODB-4thEdition-GlobalReport-Vi-10122017.pdf?dl=0 , CC BY.

Giấy phép nội dung: CC BY 4.0 Quốc tế.

Theo tôi có hai vấn đề chúng ta cần quan tâm khi đề cập đến việc sử dụng dữ liệu mở:
Thứ nhất, nên đề cập tới việc sử dụng một số định dạng chuẩn cho việc trao đổi biểu diễn dữ liệu, ví dụ bộ mã unicode, định dạng ngày giờ hay tọa độ dùng ISO. Đây là các loại dữ liệu khá phổ biến nếu có định dạng chuẩn sẽ đỡ mất thời gian xử lý hay hiểu sai dữ liệu. Ví dụ 1: ngày 11/6/2020 có thể bị hiểu nhầm là 6 tháng 11 hay 11 tháng 6, rồi khi trao đổi quốc tế phải có múi giờ. Nếu dùng ISO 8601 (https://en.wikipedia.org/wiki/ISO_8601) yyyy-mm-dd 2020-06-11 thì chúng ta không thể nhầm lẫn được. Hay toạ độ địa lý dùng hệ tọa độ của Việt Nam sẽ phải mất công biên đổi sang các hệ tọa độ dùng trong các hệ thống map quốc tế như google map hay openstreetmap. Hay các kiểu font TCVN, VNI… không nên dùng cho biểu diễn dữ liệu, chỉ nên dùng unicode.
Thứ hai nên khuyến khích chia sẻ dữ liệu dưới dạng máy tính dễ truy cập tự động, “hiểu được”, ví dụ các tệp thông tin định dạng XML, JSON, hay các API để tích hợp được luôn vào các ứng dụng. Cái này sẽ thúc đẩy quá trình chuyển đổi số và tiết kiệm công sức xử lý dữ liệu rất nhiều của người làm ứng dụng hay làm nghiên cứu với bộ dữ liệu. Trước đây dữ liệu có xu hướng đưa lên cho con người dễ nhìn (các trang Web, html) nhưng bây giờ có xu hướng dữ liệu để máy dễ truy cập nhằm phục vụ việc tích hợp hay triển khai các giải pháp tự động, khai phá dữ liệu hoặc trí tuệ nhân tạo (ví dụ các trang tin lớn thế giới họ có trang Web www.wsj.com, rss dạng XML (https://feeds.a.dj.com/rss/RSSWorldNews.xml) hay API (https://developer.dowjones.com/site/docs/newswires_apis/dow_jones_top_stories_api/index.gsp). Dữ liệu mở có thể miễn phí nhưng các API tương tác với dữ liệu có thể thu phí vì duy trì tốt được điều này sẽ khá tốn công sức và cơ sở hạ tầng. Việc thu phí sẽ khiến người sử dụng có trách nhiệm với dữ liệu hơn và có động lực hơn trong việc làm sạch và tạo các tiện ích từ dữ liệu. (TS. Lưu Vĩnh Toàn)

Tác giả