Bước thử nghiệm cho “Hệ tri thức Việt số hóa”
Không đơn giản là việc số hóa các văn bản khoa học sẵn có, việc xây dựng đề án “Phát triển hệ tri thức Việt số hóa” còn liên quan đến rất nhiều vấn đề chuyên môn hết sức phức tạp của ngành Công nghệ thông tin, đặc biệt là lĩnh vực Khoa học máy tính. Vì vậy, trước khi xây dựng kho dữ liệu tri thức ở nhiều lĩnh vực cho đề án này, một đề tài mang tính thử nghiệm đã được bắt đầu tiến hành ở Viện Công nghệ thông tin (Đại học Quốc gia Hà Nội), “Phát triển dịch vụ hỏi đáp về văn hóa Việt Nam và tri thức KHCN dựa trên bộ tích lũy - khởi tạo tri thức phục vụ cho các trợ lý ảo trong đề án ‘Phát triển Hệ tri thức Việt số hóa’” do TS. Lê Quang Minh làm chủ nhiệm.
Kho dữ liệu tri thức đặt tại hệ thống máy chủ của Đại học Quốc gia Hà Nội. Ảnh: ĐHQGHN.
Hai lĩnh vực khoa học đề tài lựa chọn là văn hóa, ngôn ngữ dân tộcViệt Nam và địa chất, tài nguyên môi trường, “những lĩnh vực mà Đại học Quốc gia Hà Nội đã sẵn có sách chuyên khảo giống như bách khoa thư trong lĩnh vực này, có thể trước đây chỉ có những nhà nghiên cứu ở từng lĩnh vực mới biết hoặc mới quan tâm đến nó.” TS. Lê Quang Minh giải thích. Tuy nhiên để đưa các văn bản thành dữ liệu phù hợp với việc tra cứu theo kiểu dịch vụ hỏi đáp, sẽ phải “cô đọng và sắp xếp lại kiến thức theo từng đơn vị thông tin, theo từng câu hỏi và thiết lập cây tri thức cho từng lĩnh vực”, TS. Lê Quang Minh khái quát về công việc mà nhóm bắt đầu thực hiện.
Dự kiến, vào đầu năm 2018 khi tổ chức lễ công bố đề án “Phát triển hệ tri thức Việt số hóa” thì đề tài đã hoàn thành được ít nhất 1.000 đề mục, tương ứng ít nhất 4.000 đơn vị thông tin và một cộng đồng sử dụng dịch vụ hỏi đáp gồm khoảng 1.200 đến 1500 sinh viên, trong đó có khoảng 300 đến 500 sinh viên đăng ký đóng góp tri thức bằng các hoạt động tích lũy, xử lý, Việt hóa tri thức cùng nhóm chuyên gia thường trực giải đáp trực tuyến và chuẩn hóa tri thức đã tích lũy.
Phong phú như Wikipedia và tiện lợi như Google
Một trong những mơ ước tưởng chừng viển vông của những người làm đề tài là tạo ra được một kho dữ liệu tri thức “phong phú như Wikipedia và tiện lợi như Google”, nghĩa là không chỉ đầy đủ về nội dung mà còn thuận tiện để người dùng có thể tìm kiếm, khai thác thông tin một cách nhanh nhất theo đơn vị thời gian được tính bằng giây, dù bằng phương thức đặt câu hỏi dưới dạng văn bản hay tiếng nói qua ứng dụng trợ lý ảo (chatbot – phần mềm để người sử dụng có thể giao tiếp với máy). Đúng là có vẻ viển vông bởi họ chỉ là những nhà nghiên cứu bình thường và kinh phí đầu tư cho đề tài cũng chỉ ở mức khiêm tốn, trong khi trang web chuyên cung cấp thông tin theo kiểu bách khoa toàn thư mở như Wikipedia tập hợp được một đội ngũ những tình nguyện viên trên khắp thế giới, tích lũy được một lượng thông tin khổng lồ về nhiều lĩnh vực của khoa học, đời sống, xã hội, nghệ thuật… qua quá trình hoạt động từ năm 2000 (trang tiếng Việt có từ quãng năm 2002-2003); Google là một công ty công nghệ toàn cầu chuyên về các dịch vụ và sản phẩm liên quan đến internet, tập hợp những chuyên gia hàng đầu thế giới về điện toán đám mây, học máy, trí tuệ nhân tạo, big data…
TS. Lê Quang Minh chia sẻ, “khi bắt tay vào xây dựng đề tài, chúng tôi cũng đã hình dung sẽ có người đặt câu hỏi: hệ thống này có gì khác biệt với Wikipedia? Nếu không hơn thì làm [để] làm gì? Tuy nhiên cứ so đo như thế, chúng ta sẽ còn rất lâu nữa mới có được những kho dữ liệu bằng tiếng Việt, nơi không chỉ tập hợp những tri thức truyền thống mà còn cả những tri thức mới của chính người Việt làm ra và cập nhật cả tri thức quốc tế”.
Kho dữ liệu tri thức được xây dựng trên nền tảng kiến thức đã được chuẩn hóa từ những bộ sách chuyên khảo. “Chúng tôi nghĩ đến việc người ta có thể khai thác được nhiều thông tin thú vị từ kho dữ liệu sau này, ví dụ như chỉ cần gõ hoặc nói vào ứng dụng chatbot được cài trên điện thoại thông minh từ khóa ‘cao nguyên đá Đồng Văn’ hay chỉ đơn giản là ‘Đồng Văn’, lập tức sẽ có ngay hàng loạt gợi ý về nội dung liên quan như đặc điểm địa lý, lịch sử hình thành, nguồn tài nguyên bản địa, những sản vật bản địa, những cây thuốc bản địa… Nếu chọn một trong số những gợi ý này, người truy cập có thể nhận được những thông tin sâu hơn, ví dụ như danh sách những cây thuốc quý chỉ có tại Đồng Văn, nó được dùng để chữa trị những bệnh gì, cách thức sử dụng ra sao, có thể mua những dược liệu đó được ở đâu… Đấy, mục tiêu lâu dài của chúng tôi là thế”, TS. Lê Quang Minh cho biết.
Quá trình hình thành, đóng góp tri thức trong hệ thống.
Dĩ nhiên, ban đầu kho dữ liệu này sẽ mới chỉ có những nội dung cơ bản được rút trích từ sách, từ các nguồn tài liệu tham khảo mà nhóm chủ trì khai thác được. Theo thời gian, dữ liệu sẽ phong phú hơn qua sự bồi đắp, chung tay của cộng đồng cũng như việc tự cập nhật thông tin từ nhiều trang web khác. Đây cũng là quy luật phát triển mà giới công nghệ thông tin rút ra từ quá trình hoạt động của nhiều hệ thống dữ liệu lớn trên thế giới như Google, Wikipedia, Baidu, Bing, Yandex…, ví dụ sau 16 năm tích lũy, hiện Wikipedia có tới 4,3 triệu bài viết ở phiên bản tiếng Anh, hơn 1,1 triệu bài viết tiếng Việt 1. Trong tương lai, việc có được kho dữ liệu lớn không chỉ là tập hợp lại những kiến thức đã có và làm phong phú thêm hiểu biết của cộng đồng người Việt mà thậm chí còn đem lại cơ hội phát triển các ứng dụng công nghệ thông minh hữu ích cho xã hội.
Hình thành cây tri thức
Để đạt được những mục tiêu này, nhóm nghiên cứu đã hình dung ra khối lượng công việc sẽ phải hoàn thành, bao gồm việc xây dựng cơ sở tri thức về tài nguyên môi trường và văn hóa, ngôn ngữ dân tộc Việt Nam; giao diện hỏi đáp tự động với sự hỗ trợ online của các chuyên gia; cơ sở dữ liệu cho hai lĩnh vực trên giao diện đóng góp dữ liệu cho những người tình nguyện. Tất cả công việc được gói gọn trong vòng một năm, từ tháng 9/2017 đến tháng 8/2018.
Vậy cái khó nhất mà các nhà nghiên cứu sẽ gặp phải là gì, có phải là thời gian? “Thời gian cũng là một vấn đề với chúng tôi, ví dụ trong ngần ấy thời gian phải nhập thành công 1.250 đơn vị tri thức, tính ra khoảng 4.000 đến 5.000 từ mục ở hai lĩnh vực. Muốn giải quyết được vấn đề, mọi thứ cần được chuẩn hóa từ khâu đầu vào”, TS. Lê Quang Minh cho biết. Chuẩn hóa ở đây nghĩa là cần tuân theo các tiêu chuẩn nhất định, bởi nhập dữ liệu không phải là “khuân vác” nội dung có trong sách chuyên khảo về, dữ liệu ấy cần được chọn lọc, hiệu đính, sắp xếp thứ tự theo chủ đề, mục từ, khái niệm… và tách thành các đơn vị thông tin (information units) dài từ 5 đến 10 dòng, mỗi đơn vị này sẽ tương ứng với một câu hỏi hoặc từ khóa – yếu tố cần thiết để sau này, người dùng có thể tìm kiếm thông tin một cách nhanh nhất qua ứng dụng chatbot.
Dữ liệu nền này sẽ được nhóm nghiên cứu sẽ đưa vào “cây tri thức” theo cách: mỗi cây tri thức là một lĩnh vực, trong đó mỗi cây có chừng 10 đến 20 nhánh là các đề tài, từng nhánh sẽ tách ra thành 25 đến 30 cành – đề mục và trên mỗi cành có từ 4 đến 10 lá – đơn vị tri thức đi kèm với khoảng 2 đến 10 từ khóa – chỉ mục. Tại sao lại là cây tri thức? TS. Lê Quang Minh giải thích: “Các đơn vị thông tin được phân bổ rất khoa học theo cấp độ dữ liệu, cấu trúc theo dạng cây và đi kèm với các câu hỏi, từ khóa sẽ tạo điều kiện thuận lợi cho các công cụ khai thác tìm kiếm”.
Việc quản lý dữ liệu theo kiểu cây tri thức hiện là giải pháp hữu hiệu để lưu trữ và bổ sung thông tin, vốn được Wikipedia cũng nhiều hệ thống khác trên thế giới áp dụng thành công. Khả năng bổ sung thông tin để làm giàu cho kho dữ liệu đã được tính đến khi người sử dụng và truy cập vào hệ thống tăng dần. Vì vậy, nhóm nghiên cứu đã chuẩn bị sẵn về cơ sở dữ liệu với việc thiết lập giao diện có chức năng xây dựng, bổ sung và mở rộng cây tri thức, đồng thời có chức năng tải dữ liệu thô từ các nguồn trên mạng internet để tự sắp xếp vào cây tri thức.
Để hệ thống ngày càng thông minh hơn
Một hệ thống dữ liệu “thuần Việt” như vậy được dự đoán là sẽ phải cạnh tranh với những “ông lớn” đã được Việt hóa và có đông đảo người Việt yêu chuộng như Google, Wikipedia… Vậy làm thế nào để hệ thống này không bị lép vế ngay trên sân nhà? Câu trả lời của hầu hết các nhà nghiên cứu chuyên ngành Khoa học máy tính là cần phải để hệ thống đó trở nên thông minh hơn, tức là có khả năng tìm kiếm nhanh, thuận lợi và thủ pháp đơn giản.
Đằng sau những yêu cầu đó là cả vấn đề lớn về công nghệ. TS. Lưu Vĩnh Toàn (Công ty chuyên về dữ liệu lớn Squirro, Thụy Sĩ) nhận xét, “để khai thác thông tin, một trang web về dữ liệu thì cần có thuật toán thu thập (crawl), đánh chỉ số (index) và xếp hạng (ranking). Rất cần các bước này trong hệ thống vì nó phải thu thập dữ liệu từ nhiều nguồn (module 1), bóc tách, chuẩn hóa nguồn dữ liệu này (module 2), index dữ liệu (module 3), phục vụ việc tìm kiếm, lựa chọn thông tin phù hợp và xếp hạng dữ liệu khi có truy vấn (module 4), trong đó module 2 vẫn là khó khăn nhất vì phải xử lý nhiều loại dữ liệu khác nhau để chuẩn hóa nó”. Nhóm nghiên cứu của Viện Công nghệ thông tin cho biết, họ đang tiến hành xây dựng một bộ công cụ tích hợp nhiều tính năng như vậy nhưng mới chỉ ở mức thử nghiệm. “Đây sẽ là đóng góp lớn nhất của nhóm cho đề tài nói riêng và đề án ‘Phát triển hệ tri thức Việt số hóa’ nói chung”, TS. Lê Quang Minh nói.
Công việc xây dựng bộ công cụ đó có nhiều thách thức vì nó liên quan đến nhiều bài toán phức tạp của ngành Khoa học máy tính, đặc biệt về xử lý ngôn ngữ tự nhiên tiếng Việt (Vietnamese natural language processing). GS. TS Hồ Tú Bảo (Viện KH&CN Tiên tiến Nhật Bản) nhận định, “xử lý ngôn ngữ tự nhiên tiếng Việt trên máy tính là một trong những vấn đề khó nhất của công nghệ thông tin. Cái khó nằm ở chỗ làm sao cho máy hiểu được ngôn ngữ con người, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ thể, đến việc hiểu nghĩa một câu, rồi hiểu cả văn bản. Mấu chốt ở đây là bản chất phức tạp của ngôn ngữ của con người, đặc biệt là sự đa nghĩa và nhập nhằng nghĩa của ngôn ngữ.”2
Là người đảm trách phần xây dựng và phát triển thử nghiệm bộ công cụ, TS. Lê Quang Minh cho biết, đơn giản như sửa lỗi chính tả cũng là một bài toán khá phức tạp với máy, ví dụ việc xác định được đâu là từ đúng giữa “vô hình trung”, “vô hình chung”, “vô hình dung”… phải dựa trên bài toán thống kê xác suất n-gram. Máy vốn đã “hiểu” và nhận định được những lỗi về từ – phi từ (từ không có trong từ điển tiếng Việt) nhưng sai về mặt ngữ pháp thì cần phải được “học thêm” bằng kỹ thuật n-gram. Bên cạnh đó, cần giải quyết những vấn đề như tách từ, sửa lỗi chính tả, chuẩn hóa từ… để máy có thể “hiểu” được những từ, cụm từ, câu hỏi không đủ nghĩa hoặc gõ bằng tiếng Việt không dấu, qua đó kịp thời đưa ra những gợi ý tương đương về nghĩa cho người truy cập lựa chọn. “Google là công cụ tìm kiếm được sử dụng nhiều nhất trên thế giới hiện nay bởi nó đã giải quyết rất tốt vấn đề này trên nhiều ngôn ngữ, trong đó có tiếng Việt”, TS. Lê Quang Minh giải thích.
Để nâng cao tính năng của bộ công cụ, nhóm nghiên cứu còn ứng dụng một sản phẩm nghiên cứu từ đề tài cấp Bộ Công Thương của PGS. TS Nguyễn Ái Việt – một thành viên của nhóm nghiên cứu: VIEGRID, công cụ dịch thuật API (application programming interface – giao diện lập trình ứng dụng) tự động chuyển ngữ Anh, Nga, Trung sang tiếng Việt rồi tự sửa lỗi và cung cấp các đơn vị thông tin để sẵn sàng nhập vào kho dữ liệu.
Những công việc “phía sau hậu trường” như vậy đang được giải quyết dần dần. Khi có kho dữ liệu tri thức này, các doanh nghiệp sẽ cùng nhau phát triển các chatbot hỏi đáp trên các thiết bị di động và cung cấp đến người dân. Bộ công cụ mà nhóm nghiên cứu phát triển sẽ đảm trách việc kết nối với chatbot để trả lời các câu hỏi theo từ khóa hoặc theo câu hỏi mà chatbot đã xử lý từ người hỏi.
Nhóm nghiên cứu hy vọng, trong quá trình hoạt động, kho dữ liệu và các tính năng của bộ công cụ sẽ có điều kiện hoàn thiện và sẽ làm cho hệ thống ngày càng thông minh, tiệm cận với nhu cầu của người dùng. “Đây cũng là cơ hội để các nhà nghiên cứu phát triển công nghệ mới và nâng cấp hệ thống”, TS Lê Quang Minh dự đoán.
——-
1https://vi.wikipedia.org/wiki/Wikipedia:Gi%E1%BB%9Bi_thi%E1%BB%87u
2 http://www.jaist.ac.jp/~bao/Writings/VLSPwhitepaper%20-%20Final.pdf