Google công bố công cụ tìm kiếm cho dữ liệu mở

Công cụ này, được gọi là Google Dataset Search, sẽ giúp các nhà nghiên cứu tìm thấy dữ liệu họ cần một cách dễ dàng hơn.

Giao diện thử nghiệm của Google Dataset Search.

Google đã công bố một công cụ tìm kiếm để giúp các nhà nghiên cứu định vị và sử dụng dữ liệu trực tuyến sẵn có. Công ty đã ra mắt dịch vụ vào ngày 5 tháng 9, và cho biết rằng dịch vụ này có thể hữu ích cho “các nhà khoa học, nhà báo dữ liệu, chuyên viên dữ liệu, hoặc bất kỳ ai khác”.

Tìm kiếm tập dữ liệu (Dataset Search), hiện nay mớiđược đưa vào sử dụng cùng với các công cụ tìm kiếm chuyên dụng khác đã được sử dụng từ lâu của Google, chẳng hạn như tin tức và hình ảnh – cũng như Google Scholar và Google Books – tìm các tệp và cơ sở dữ liệu trên cơ sở cách chủ sở hữu phân loại chúng. Nó không đọc nội dung của các tập tin, theo cách mà các công cụ tìm kiếm làm đối với trang web.

Các chuyên gia cho rằng công cụ này có thể đóng góp đáng kể vào sự thành công của phong trào dữ liệu mở – nhằm làm cho dữ liệu có thể công khai sử dụng và tái sử dụng.

Các cơ quan chính phủ, nhà xuất bản khoa học, các viện nghiên cứu và thậm chícá nhân các nhà nghiên cứu duy trì hàng nghìn kho dữ liệu mở trên thế giới, chứa hàng triệu bộ dữ liệu. Nhưng khi các nhà nghiên cứu muốn biết những loại dữ liệu nào có sẵn, hoặc mong muốn tìm được dữ liệu mà họ đã biết, thường phải dựa vào thông tin “truyền miệng”, theo Natasha Noy, nhà khoa học máy tính tại Google AI ở Mountain View, California.

Vấn đề này đặc biệt nghiêm trọng đối với các nhà nghiên mới, chưa được “kết nối” vào một mạng lưới các mối quan hệ nghề nghiệp, Noy nói. Tìm kiếm dữ liệu cũng là một khó khăn đối với những người làm nghiên cứu đa ngành – ví dụ, một nhà dịch tễ học cần truy cập vào dữ liệu khí hậu có thể liên quan đến sự lây lan của virus.

Tìm kiếm phân loại

Noy và Dan Brickley, đồng nghiệp tại Google, lần đầu tiên mô tả một chiến lược để giải quyết vấn đề đó trong một bài viết của họ đăng trên blog vào tháng 1 năm 2017.

Các công cụ tìm kiếm điển hình hoạt động theo hai giai đoạn chính. Đầu tiên là lập chỉ mục các trang có sẵn bằng cách liên tục rà soát Internet. Thứ hai là xếp hạng các trang được lập chỉ mục đó, để khi người dùng nhập cụm từ tìm kiếm, công cụ có thể cung cấp kết quả theo thứ tự mức độ liên quan.

Để hỗ trợ các công cụ tìm kiếm trong việc lập chỉ mục các bộ dữ liệu hiện có,theo Noy và Brickley, những người sở hữu các bộ dữ liệu nên ‘gắn thẻ’ (tag) chúng, sử dụng kho từ vựng đã được tiêu chuẩn hóa gọi là Schema.org – một sáng kiến được thành lập bởi Google và ba công cụ tìm kiếm khổng lồ khác (Microsoft, Yahoo và Yandex) và Brickley quản lý. Nhóm Google cũng đã phát triển một thuật toán đặc biệt để xếp hạng các bộ dữ liệu trong kết quả tìm kiếm.

Theo Mark Hahnel, giám đốc điều hành của công ty chia sẻ dữ liệu Figshare ở London, với sự thống trị của Google trong tìm kiếm trên web, việc công ty đang hướng đến hệ sinh thái dữ liệu nhanh chóng khiến những tổ chức lớn trong ngành phải đi theo và chuẩn hóa siêu dữ liệu của họ. (Figshare được điều hành bởi Tập đoàn xuất bản Holtzbrinck, tập đoàn này cũng có cổ phần lớn trong nhà xuất bản của Nature).

“Vào tháng 11, tất cả các trường đại học chúng tôi đang làm việc cùng đều đang ‘đánh dấu’ các dữ liệu của họ,” Hahnel nói. “Tôi nghĩ rằng đây là một bước ngoặt cho dữ liệu mở trong cộng đồng học thuật.”

Các cơ quan tài trợ đôi khi yêu cầu rằng dữ liệu trong nghiên cứu phải được cung cấp mở, mục tiêu cuối cùng của việc này chỉ có ý nghĩa khi thông tin có thể được “tìm và truy cậpmột cách hiệu quả”, ông nói. 

Quan hệ đối tác với các cơ quan

Các tổ chức đã sớm ủng hộ thử nghiệm của Google là Cơ quan Khí quyển và Đại dương Quốc gia Hoa Kỳ (NOAA). Cơ quan này có nhiệm vụ nghiên cứutừ thủy sản đến vành nhật hoa của Mặt trời; các kho lưu trữ của nó chứa gần 70.000 bộ dữ liệu – bao gồm cả nhật ký tàu bè từ những năm 1800. “Kho báu” này lên đến hơn 35 petabyte, tương đương với nội dung của 35.000 ổ đĩa cứng.

Công cụ của Google sẽ giúp NOAA đáp ứng nhiệm vụ mởdữ liệu của mình, Giám đốc dữ liệu của NOAA Edward Kearns ở Asheville, North Carolina cho biết. Kearns nói thêm: “Chúng tôi muốn tìm kiếm những cách thức mới để làm cho những dữ liệu đó sẵn sàng để dùng cho mọi người”.

Để tìm kiếm tập dữ liệu hoạt động, sự hợp tác của chủ sở hữu dữ liệu là một yếu tố rất quan trọng. Mặc dù hệ thống có thể trở nên tinh vi hơn trong tương lai, Google hiện không có kế hoạch thực sự đọc dữ liệu hoặc phân tích chúng, cũng như với các trang web hoặc hình ảnh. “Một công cụ tìm kiếm như thế này chỉ có ý nghĩa nếu siêu dữ liệu được các nhà xuất bản dữ liệu cung cấp”, Noy nói.

Giống như Google Scholar, Tìm kiếm dữ liệu hiện không cung cấp quyền truy cập cho truy vấn tự động hoặc giao diện lập trình ứng dụng (API) – mặc dù công ty cho biết rằng nó có thể thêm chức năng đó trong tương lai.

Noy nói rằng khi các nhà nghiên cứu bắt đầu sử dụng công cụTìm kiếm dữ liệu, Google sẽ quan sát cách họ sử dụng thông tin đó để cải thiện kết quả tìm kiếm. Google hiện không có kế hoạch kiếm tiền từ dịch vụ này.

Khi công cụ Tìm kiếm tập dữ liệu phát triển, nó cũng có thể được tích hợp với Google Scholar, để kết quả tìm kiếm trên một nghiên cứu cụ thể có thể liên kết đến các tập dữ liệu có liên quan.

Hoàng Nam dịch
Nguồn: https://www.nature.com/articles/d41586-018-06201-x

Tác giả