Cơ sở dữ liệu Quốc gia về KH&CN: Một số việc cần làm

Xây dựng Cơ sở dữ liệu Quốc gia về KH&CN chắc chắn là vấn đề cấp thiết trong việc phát triển năng lực nghiên cứu và sáng tạo của quốc gia. Có mấy vấn đề liên quan đến công nghệ tôi xin được gợi ý như sau:

Lãnh đạo Bộ KH&CN, Bộ Thông tin và Truyền thông thăm Phòng hệ thống, lưu trữ cơ sở dữ liệu tại Công viên phần mềm Đà Nẵng. Nguồn: ictdanang.vn

Thứ nhất, nên cố gắng xây dựng một Cơ sở tri thức (Knowledge Base) thay vì Cơ sở dữ liệu (Database) về KH&CN, vì khi nói đến cơ sở dữ liệu (CSDL) chúng ta thường nghĩ đến việc sử dụng một cách bị động nguồn dữ liệu đó theo dạng tìm kiếm, tra cứu.

Hiện tại các kỹ thuật xử lý dữ liệu không chỉ dừng ở việc phục vụ tìm kiếm tra cứu thông tin mà còn giúp hiểu sâu sắc hơn về dữ liệu (data insight), phát hiện ra các mối quan hệ giữa các thực thể dữ liệu, để gợi ý các hành động và quyết định với dữ liệu (recommendation).

Cụ thể hơn, khi một nghiên cứu sinh bắt đầu một đề tài nghiên cứu, chỉ với một mô tả rất tóm tắt đề cương, hệ thống Cơ sở tri thức về KH&CN có thể giúp nghiên cứu sinh:

(1) Tìm ra được các đề tài liên quan, dự án tương tự, phát hiện sự trùng lặp nội dung, tránh bị bắt lỗi sao chép và thiếu trích dẫn.

(2) Gợi ý các nhà khoa học chuyên gia, phòng thí nghiệm nghiên cứu vấn đề tương tự và tổ chức, doanh nghiệp đã tài trợ các đề tài liên quan để liên hệ trao đổi chuyên môn hoặc giải đáp các thắc mắc, tìm nguồn tài trợ, đầu tư cho nghiên cứu.

(3) Tổng hợp các ý tưởng, kết quả đã đạt được từ trước (state of the art) gợi ý các vấn đề cần giải quyết trong tương lai.

(4) Cảnh báo các nguy cơ (ví dụ hướng nghiên cứu trên thế giới đang rất “nóng” nhưng còn vắng bóng trong các đề tài ở Việt Nam hay hướng nghiên cứu đã đi vào ngõ cụt nhưng vẫn có nhiều người lao vào làm).

Thứ hai, có thể xây dựng hệ thống theo cách “Minimum Viable Product” (MVP), sản phẩm phải cung cấp được những giá trị tối thiểu và đến tay người sử dụng càng sớm càng tốt, ngay trong quá trình xây dựng.

Cách tiếp cận xây dựng hệ thống thông thường là (1) thu thập và kết nối các nguồn dữ liệu nhiều nhất có thể, (2) xây dựng hệ thống phân tích, xử lý nguồn dữ liệu này (3) đưa hệ thống vào để giải quyết các vấn đề xã hội và phát triển khoa học công nghệ.

Cách này có thể dẫn đến nguy cơ ta hay gọi là“đầu voi đuôi chuột”, chẳng hạn khi có nhiều nguồn dữ liệu rồi, ta không có đủ cơ sở hạ tầng và trình độ để xây dựng hệ thống và xử lý nguồn dữ liệu đó thì người sử dụng sẽ không tận dụng được gì. Hoặc khi có hệ thống rồi thì lại không đáp ứng đúng nhu cầu của xã hội, của người sử dụng, không giải quyết được các vấn đề hay đòi hỏi trong thực tế.

Thậm chí hệ thống bị vứt bỏ lãng phí không thực hiện được các bước tiếp theo vì thiếu kinh phí hoàn thiện hay có sự thay đổi về công nghệ, định hướng chiến lược, do hoàn cảnh (chẳng hạn một CSDL khoa học trên thế giới được mở ra cho mọi người tra cứu miễn phí).

Nếu tiếp cận xây dựng hệ thống theo cách MVP, ta có thể đi theo quy trình ngược lại (1) xác định luôn một vấn đề thực tế cần giải quyết, (2 xây dựng ngay một hệ thống hay một bản chạy thử (prototype) để giải quyết vấn đề đó (3) thu thập nguồn dữ liệu tối thiểu đáp ứng cho hệ thống, và đưa luôn hệ thống vào sử dụng để đánh giá và lấy ý kiến phản hồi cải tiến tiếp. Nếu các bước trên đã thông suốt thì việc thêm chức năng cho hệ thống hay thêm nguồn dữ liệu chỉ giúp cho hệ thống tốt lên mà không cản trở việc hệ thống đã đến được tay người sử dụng.

Ngoài ra, nếu đã có một số nguồn dữ liệu dù nhỏ nên có luôn giao diện lập trình ứng dụng (Application Programming Interface API) như Elsevier Scopus APIs (https://dev.elsevier.com/sc_apis.html) để những ai quan tâm có thể truy cập, xây dựng ứng dụng từ nguồn dữ liệu đó mà không cần đợi hệ thống hoàn thiện toàn bộ, điều này sẽ giúp cho chúng ta hiểu thêm người sử dụng API này làm gì để nâng cao chất lượng và tính năng cho dữ liệu và hệ thống tra cứu.

Thứ ba nên xác định rõ ràng CSDL KH&CN tập trung giải quyết nhiệm vụ chiến lược nào về khoa học công nghệ và phải có chỉ số đánh giá thực hiện chính (Key Performance Indicator KPI) để phát hiện vấn đề cần giải quyết và qua đó, việc tổ chức, xây dựng CSDL sẽ ưu tiên giải quyết vấn đề đó chứ không thể hiểu chung chung là để tra cứu. Những chỉ số như hệ thống có kết nối tới X nguồn dữ liệu hay chứa Y xuất bản khoa học sẽ không có ý nghĩa bằng các KPI như hệ thống được sử dụng bởi X nhà khoa học trong nước góp phần tạo ra thêm Y xuất bản khoa học.

Các vấn đề chiến lược có thể là:

(1) nâng thứ hạng cho các trường đại học, viên nghiên cứu ở Viêt Nam thông qua CSDL KH&CN.

(2) khai thác, phát huy tính ứng dụng của các đề tài nghiên cứu trong thực tế và phát triển thành các phát minh (patent).

(3) thiết lập và khai thác dữ liệu về mối quan hệ giữa các nhà khoa học nghiên cứu Việt Nam và thế giới để mỗi vấn đề khoa học công nghệ cần phản biện hay phát triển có thể tìm được ngay chuyên gia, nghiên cứu sinh tham gia.

(4) hoặc chỉ đơn giản tạo điều kiện cho sinh viên các trường đại học Việt Nam có một nguồn thư viện nghiên cứu số (digital research library) để có thói quen tra cứu, tổng hợp kiến thức từ CSDL KH&CN và phát hiện tính trùng lặp, sao chép, thiếu trích dẫn của các đề tài nghiên cứu…

Việc xây dựng hệ thống cơ sở dữ liệu chung trước mắt có thể áp dụng quy tắc 80/20 (dựa trên định luật hàm mũ (https://en.wikipedia.org/wiki/Power_law): Thường thì 20% lượng dữ liệu đã đáp ứng 80% nhu cầu sử dụng dữ liệu. Nên việc phân tích, xác định các nguồn dữ liệu thiết yếu (nhiều người quan tâm, mang lại hiệu quả kinh tế cao) để tập trung xây dựng trước sẽ hạn chế lượng thông tin không được dùng.

Cách xác định nguồn dữ liệu thiết yếu này có thể dựa trên phân tích chiến lược quốc gia (đang tập trung phát triển ngành nghề nào), xu hướng thế giới (các ngành nghiên cứu nào đang “nóng”), nhu cầu doanh nghiệp… Khi điều kiện kỹ thuật, kinh tế cho phép, chúng ta sẽ tiếp tục hoàn hiện các lượng thông tin còn thiếu dựa trên nhu cầu người dùng hay xây dựng nền tảng P2P (peer to peer), để người cung cấp dữ liệu và người cần nguồn dữ liệu tự trao đổi với nhau trên nền tảng hệ thống CSDL Quốc gia về KH&CN.

Tóm lại, quá trình số hóa đang diễn ra rất nhanh trên thế giới, chúng ta nên có cách tiếp cận mới, ứng dụng công nghệ mới để sớm đưa CSDL về KH&CN vào sử dụng.

Cơ sở dữ liệu quốc gia về KH&CN và Hệ tri thức Việt số hóa Về cơ bản, việc xây dựng CSDL Quốc gia về KH&CN chính là một phần của việc xây dựng Hệ Tri thức Việt số hóa, vì về bản chất nó giúp người sử dụng tìm ở đó câu trả lời cho các câu hỏi thiết yếu như ai (Who), cái gì (What), thế nào (How), ở đâu (Where), khi nào (When)…. Tuy nhiên đối tượng sử dụng của CSDL về KH&CN sẽ hẹp hơn vì hướng tới những người muốn tìm tòi, nghiên cứu sâu hơn. Để kết nối các nguồn dữ liệu giữa các hệ thống tri thức với nhau hay giữa CSDL KH&CN với các viện trường đại học, cách tốt nhất là các bên cùng thống nhất một định dạng dữ liệu thông dụng (ví dụ json), thống nhất một lược đồ dữ liệu (data schemas) theo một chuẩn thông dụng (ví dụ https://schema.org/docs/full.html) và cung cấp cho nhau các API truy cập dữ liệu này (ví dụ địa chỉ http://library.hust.edu.vn/publication/2018/computer_science.json có thể là nơi chứa các xuất bản khoa học về chuyên ngành Khoa học máy tính năm 2018 của trường Đại học Bách khoa Hà Nội). Tuy nhiên, nếu điều kiện kỹ thuật chưa cho phép ở các viện, trường thì trao đổi dữ liệu nhỏ với khuôn dạng đơn giản như CSV (Comma Separated Value) hay Excels cũng có thể dùng để nhanh chóng đáp những nhu cầu trao đổi và kết nối dữ liệu. Một cách để tạo động lực (incentive) cho nguồn dữ liệu luôn được cập nhật là việc xét duyệt học hàm, học vị, xếp thứ hạng các trường từ nay chỉ dựa trên việc tra cứu, phân tích CSDL Quốc gia về KH&CN sẽ khiến các trường, viện và cá nhân chú trọng cập nhật dữ liệu cho hệ thống hơn.

Theo Báo KH&PT

Tác giả