Dữ liệu mở trong quá trình trình chuyển đổi số

Không ai phủ nhận được vai trò của dữ liệu bởi nói một cách hình ảnh như chuyên gia tư vấn và tác giả người Mỹ Geoffrey Moore “Vắng dữ liệu, chúng ta như kẻ mù và điếc giữa ngã ba đường”. Tuy nhiên để thực sự trở thành một trong những nguồn tài nguyên thiết yếu mới của thế giới thời kỳ chuyển đổi số, dữ liệu cần phải được mở, đặc biệt là dữ liệu quốc gia.

 



Dữ liệu mật độ giao thông tại các điểm có thu thập tín hiệu sẽ góp phần giải quyết vấn đề ùn tắc giao thông đô thị.



Trong tiến trình số hóa và chuyển đổi số đang diễn ra trên toàn cầu, người ta thường quan tâm đến vấn đề quan trọng là thu thập dữ liệu và phát triển các công nghệ xử lý dữ liệu nhưng không phải ai cũng thấy rằng, chính các nguồn dữ liệu mở cũng đóng vai trò không kém phần quan trọng. Với các tiêu chí như có thể tìm kiếm được, truy cập được, có khả năng tương hợp được và tái sử dụng được, dữ liệu mở sẽ đem lại nhiều cơ hội mới cho các startup phát triển các ý tưởng sáng tạo của mình.  

Chúng ta có thể điểm qua một số yếu tố quan trọng mà dữ liệu mở có thể mang lại:

1.Tạo cơ sở cho nghiên cứu và phát triển các công nghệ như phân tích dữ liệu lớn, ứng dụng trí tuệ nhân tạo, tích hợp số.

2. Tiết kiệm công sức thu thập và chi phí mua dữ liệu của các doanh nghiệp và cá nhân. Khuyến khích các doanh nghiệp và cá nhân tạo ra các ứng dụng có giá trị phục vụ người sử dụng dựa trên bộ dữ liệu.

3. Kiểm tra khả năng sẵn sàng số hóa dữ liệu của chính phủ, tổ chức và tạo sự minh bạch về quản lý thông tin, có thể phát hiện ra các đặc tính, vấn đề mới từ bộ dữ liệu mà chủ sở hữu dữ liệu chưa phát hiện ra.

4. Có thể chia sẻ việc khai thác thương mại, thị trường khi kết hợp bộ dữ liệu với một ứng dụng khác.

Một số lĩnh vực cần dữ liệu mở ở Việt Nam

Để thúc đẩy tiến trình số hóa, mỗi quốc gia nên có các bộ dữ liệu bao phủ hầu hết các lĩnh vực của đời sống. Tuy nhiên không phải quốc gia nào, dù ở tình trạng phát triển, cũng có thể ngay một lúc sở hữu rất nhiều bộ dữ liệu mở bao phủ khắp các lĩnh vực đời sống kinh tế xã hội… bởi đây là một quá trình lâu dài với lượng kinh phí đầu tư lớn và đòi hỏi sự tham gia của rất nhiều nhân lực. Do đó, mỗi quốc gia sẽ có những ưu tiên nhất định về việc cần tập trung xây dựng những bộ dữ liệu mở nào trước. Dù có rất nhiều cơ sở và lý do lựa chọn nhưng việc xây dựng dữ liệu cần phụ thuộc vào nhu cầu của cộng đồng, khả năng cung cấp thu thập, cung cấp dữ liệu từ các bộ, ngành hay tổ chức hoặc xã hội hóa hay một nhóm đứng ra thu thập, công bố, quản lý dữ liệu với tài trợ nhà nước hoặc tổ chức.

Chúng ta có thể điểm qua số bộ dữ liệu mở tại một số khu vực và quốc gia phát triển:

Quốc gia

Số bộ dữ liệu

Nguồn

Thụy Sĩ

~7’000

https://opendata.swiss/en/

Australia

~80’000

https://data.gov.au/search

Canada

~80’000

https://open.canada.ca/en

Mỹ

~230’000

https://www.data.gov/

Châu Âu

~800’000

https://www.europeandataportal.eu



Có một xu hướng chung trong quá trình xây dựng dữ liệu mở ở nhiều quốc gia: hầu hết họ đều tập trung vào hình thành những bộ dữ liệu rất quan trọng và hữu ích cho cộng đồng với tiêu chi có càng sớm, càng đầy đủ càng tốt là dữ liệu địa lý, đơn vị hành chính và chi tiết địa chỉ (ví dụ chi tiết đến tọa độ, đường phố) vì sẽ hỗ trợ cho rất nhiều lĩnh vực như giao thông vận tải, giao hàng hóa trong các thương mại điện tử và bưu điện, xây dựng quy hoạch, du lịch v.v…

Vậy với Việt Nam, chúng ta có cần những bộ dữ liệu này? Câu trả lời là rất nên có, ngoài ra các lĩnh vực khác “nóng” ở Việt Nam cũng nên sớm có các bộ dữ liệu như:

Quản lý, hành chính: Dữ liệu về mức chi công của chính phủ, Dữ liệu về một số bộ luật, văn bản nhưng dưới khuôn dạng máy truy cập được (json, xml).

Xây dựng và phát triển đô thị: Dữ liệu quản lý quy hoạch, dữ liệu về các địa điểm phục vụ cộng đồng (sân chơi, điểm bắt phương tiện công cộng, nhà vệ sinh, vòi nước, hòm thư, điểm rút tiền, v.v.)

Quản lý tội phạm, an ninh: Danh sách các vụ án hình sự theo thời gian, địa điểm

Khoa học giáo dục: Cơ sở dữ liệu về các đề tài nghiên cứu khoa học, luận án tiến sĩ, dữ liệu về các xuất bản khoa học của Việt Nam. Dữ liệu về kết quả thi các kỳ thi lớn (không để tên người thi). Dữ liệu về các phát minh đã đăng ký ở Việt Nam

Giao thông vận tải: Dữ liệu tọa độ di chuyển các loại thuyền bè trên biển và sông ngòi Việt Nam trong một khoảng thời gian. Dữ liệu mật độ giao thông tại các điểm có thu thập tín hiệu. Dữ liệu về tai nạn giao thông và địa điểm 

Năng lượng, viễn thông: Dữ liệu các trạm phát sóng 3G, 4G, 5G. Các địa điểm cường độ nắng, gió, dòng chảy hỗ trợ tạo nguồn điện.

Sức khỏe, y tế: Dữ liệu một số loại bệnh tật, phân bố theo địa điểm, thời gian. Dữ liệu địa điểm các bệnh viện, phòng khám, hiệu thuốc đã đăng ký.

Môi trường, khí hậu: Dữ liệu về thời tiết (nhiệt độ, độ ẩm, mức mưa, v.v.) tại các vùng, địa điểm. Dữ liệu về ô nhiễm, khói, bụi, tiếng ồn, ngập lụt tại các điểm dân cư. Dữ liệu về mức độ ô nhiễm nguồn nước tại các khu vực.

Thị trường, giá cả: Giá cả một số mặt hàng thiết yếu như điện, nước, xăng…

Còn rất nhiều lĩnh vực khác như cũng hoàn toàn có thể cung cấp các bộ dữ liệu hữu ích cho cộng đồng nghiên cứu, xây dựng ứng dụng như Thể thao văn hóa (các kết quả thành tích thể thao), Chính trị (một số kết quả bầu cử chi tiết), Tài chính (thuế các mặt hàng, thị trường tiền tệ, chứng khoán), Công việc, thu nhập (Dữ liệu cung/cầu lực lượng lao động, mức lương), nhà ở, bất động sản, an toàn thực phẩm, thống kê dân cư…

Lưu ý khi xây dựng dữ liệu mở

Do là nguồn dữ liệu mở có khả năng làm nền tảng cho các nghiên cứu, ứng dụng khác nên các tổ chức, cá nhân chuẩn bị cho bộ dữ liệu trước khi công bố nên cố gắng đầu tư công sức khi “làm sạch” cho bộ dữ liệu. Nếu không, người sử dụng dữ liệu sẽ gặp phải nhiều vấn đề hơn là lợi ích mà bộ dữ liệu mang lại.

Một trong các yêu cầu là dữ liệu mở cần tuân theo khuôn dạng chuẩn nhất định để trao đổi giữa các hệ thống máy nhưng cũng dễ hiểu bởi con người dễ chia sẻ và xử lý. Khuôn dạng thông dụng nhất hiện nay là CSV (Comma Separated Value) cho các loại dữ liệu bảng biểu và json (JavaScript Object Notation) hay XML cho các cấu trúc dữ liệu phức tạp, đòi hỏi phân cấp. Đây là một trong các vấn đề mà nhiều cơ sở dữ liệu ở Việt Nam gặp phải khi chỉ xây dựng một giao diện Web cho người dùng tra cứu mà không hỗ trợ việc tải dữ liệu hay giao diện lập trình ứng dụng (Application programming interface API) để người quan tâm có thể dùng bộ dữ liệu theo cách của mình.

Tên các trường dữ liệu nên tuân theo một danh sách từ vựng tiếng Anh đã được chấp nhất bởi các tổ chức lớn như https://schema.org/ để tránh việc nhập nhằng hay hiểu sai dạng dữ liệu. Ví dụ dữ liệu địa lý ở Việt Nam có khái niệm “thành phố” nhưng cũng có thể là thành phố cấp trung ương ngang một “tỉnh” hay thành phố trực thuộc tỉnh ngang một “huyện”.

Khuôn dạng dữ liệu nên theo các chuẩn ISO như ISO 8601 hiển thị thông tin thời gian (2019-07-10T21:09:25+07:00), ISO 6709 hiển thị thông tin tọa độ địa lý hay chỉ nên dùng một loại font chữ utf-8 cho các dữ liệu dạng văn bản. Một ví dụ đơn giản như xử lý thời gian, rất nhiều doanh nghiệp bị vấn đề này vì không thống nhất dạng biểu diễn, gặp các khó khăn trong các hệ thống thông tin như không so sánh theo thứ tự vì ngày để trước tháng năm, sai múi giờ khi phải xử lý dữ liệu có tính chất quốc tế, hay bị thiếu độ chính xác vì không lưu trữ chi tiết đơn vị giây hay milli giây.

Tuy nhiên, để các nguồn dữ liệu mở được vận hành và cung cấp thông tin một cách hiệu quả cho những người sử dụng, các nguồn dữ liệu này cần phải đáp ứng một số yêu cầu cả về hình thức và nội dung:

Một số các yêu cầu khác với các bộ dữ liệu mở là:

·  Dữ liệu phải đầy đủ và cập nhật 

· Mỗi bộ dữ liệu nên có định danh số (DOI: Digital Object Identifier)

· Có phiên bản dữ liệu khác nhau (version) nếu có cập nhật, thay đổi theo thời gian.

· Không có thông tin ảnh hưởng đến mỗi con người cụ thể (ví dụ không nên có dữ liệu mở về lịch  sử bệnh tật một người có tên, tuổi thật)

· Có hỗ trợ lấy dữ liệu theo từng khối nhỏ nếu bộ dữ liệu quá lớn

· Luôn online và miễn phí, không yêu cầu đăng ký, không bị gắn với bản quyền, phát minh sáng chế

· Nguồn dữ liệu phải tin tưởng và có tổ chức chịu trách nhiệm với mỗi bộ dữ liệu, có chữ ký điện tử, xuất xứ, thời gian của bộ dữ liệu. 

· Có tài liệu mô tả về dữ liệu đi kèm

· Có thể hỗ trợ API để truy cập và tìm kiếm, lọc dữ liệu cần lấy. Với API cần có yêu cầu đăng ký để giám sát API được ai dùng, dùng vào các việc gì.

· An toàn khi mở ra: ví dụ không chứa mã độc, mã lệnh thực hiện trên máy người lấy hay dùng dữ  liệu, không quá to để gây nghẽn mạng.

· Có danh sách các ứng dụng liên quan đã sử dụng bộ số liệu.

Cuối cùng các bộ dữ liệu sau khi thu thập và công bố cho cộng đồng nên được tổ chức một cách khoa học qua việc phân loại, thống kê, dễ tìm kiếm, lọc theo tiêu chí, hỗ trợ các khuôn dạng khác nhau. Nên sử dụng một hệ thống mã nguồn mở để quản lý các bộ dữ liệu. Ví dụ https://ckan.org, đã được sử dụng bởi rất nhiều tổ chức và quốc gia trên thế giới.

Lời kết

Theo nguồn opendatahandbook, có rất nhiều các bài học giá trị do nguồn dữ liệu mở mang lại. Tại Đan Mạch, sau 8 năm, nguồn địa chỉ mở được hình thành từ năm 2002 đã có hơn 1.000 doanh nghiệp và tổ chức sử dụng, mang lại giá trị trực tiếp ít nhất là 62 triệu Euro. Một nhân viên chỉ mất 15 phút để giúp Chính phủ Anh tiết kiệm hàng triệu bảng Anh nhờ việc phát hiện các khoản chi tiêu trùng lặp trong dữ liệu chi tiêu công của chính phủ.  Phân tích nguồn dữ liệu mở về các ca phẫu thuật ở Anh giúp giảm bớt hàng nghìn ca tử vong vì phẫu thuật tim mỗi năm. Dữ liệu mở cũng giúp việc quản lý nguồn cứu trợ của các tổ chức phi chính phủ hiệu quả hơn ở Nepal, cắt giảm hàng chục triệu USD do chi phí dược phẩm tại Nam Phi…

Việt Nam đã bắt đầu phát triển khá nhanh về hạ tầng số và ứng dụng các công nghệ số. Tuy nhiên đây là giai đoạn các nguồn dữ liệu mở sẽ cần phải sẵn sàng để góp phần vào quá trình chuyển đổi số một cách bài bản và bền vững.

Tác giả