Bức tranh khái quát về Mạng từ và Mạng từ tiếng Việt

Mạng từ trước hết là một tài nguyên từ vựng dành cho máy tính. Hàng loạt công việc liên quan đến ứng dụng máy tính vào xử lí ngôn ngữ tự nhiên và liên quan đến lĩnh vực trí tuệ nhân tạo như dịch máy, nhận dạng tiếng nói, hỏi và trả lời tự động,… đều cần đến Mạng từ, hoặc chí ít, nếu sử dụng Mạng từ thì kết quả công việc sẽ được cải thiện một cách đáng kể.

Mạng từ là gì?

Mạng từ (WordNet) – sản phẩm liên ngành chủ yếu của ngôn ngữ học, tâm lí học và khoa học máy tính là một cơ sở ngữ liệu lớn, được thiết kế cho một hay nhiều ngôn ngữ, trong đó các từ được nhóm lại thành các loạt đồng nghĩa/loạt đồng nghĩa tri nhận, mỗi loạt đồng nghĩa này thể hiện một khái niệm nghĩa riêng biệt; các loạt đồng nghĩa khác nhau có gắn kết với nhau nhờ vào các quan hệ ngữ nghĩa.

Ví dụ như từ mặt. Một nghĩa thường gặp của từ này là “phần phía trước của đầu người, kéo dài từ trán đến cằm, nơi có các bộ phận như mắt, mũi, mồm” thôi, ta cũng có thể kể ra hàng loạt từ mà nghĩa này có quan hệ trực tiếp. Chẳng hạn, nghĩa này sẽ có quan hệ ngữ nghĩa trực tiếp với những loạt đồng nghĩa có các từ đại diện là đầu, mắt, mũi, miệng, trán, cằm, má, mặt trái xoan, mặt vuông chữ điền,…. Mỗi từ có quan hệ nghĩa trực tiếp với nghĩa đang nói của từ mặt, đến lượt mình, lại có quan hệ ngữ nghĩa trực tiếp với rất nhiều từ khác nữa: từ đầu có quan hệ ngữ nghĩa trực tiếp với các từ tóc, gáy, tóc mai, thái dương, đỉnh đầu, cổ, mình, tay, chân, cơ thể,…; từ mắt có quan hệ ngữ nghĩa trực tiếp với các từ lông mày, lông mi, lòng đen, lòng trắng, nhìn, ngó, xem,… Cứ như vậy, từ/ nghĩa từ nào cũng có một tập hợp quan hệ ngữ nghĩa của riêng mình, chúng cứ có quan hệ dắt díu nhau mãi, tạo thành một mạng lưới quan hệ phức tạp theo các chiều hướng và tôn ti xác định.


Mạng từ của tiếng Hà Lan, trong đó, mỗi nút là một loạt từ đồng nghĩa, các nút này được nối với nhau nhờ quan hệ ngữ nghĩa.

Trạng thái hiện nay của các Mạng từ nói chung mới chỉ ghi nhận bốn lớp từ loại chính là danh từ, động từ, tính từ và trạng từ. Có thể nói rằng, cho đến thời điểm này, Mạng từ là một trong những nguồn tài nguyên từ vựng trực tuyến dành cho máy tính lớn nhất và quan trọng nhất.

Lịch sử của Mạng từ

Năm 1978, George Miller, giáo sư ngôn ngữ học tâm lí tại Đại học Princeton, bắt đầu phát triển một cơ sở dữ liệu về từ và mối quan hệ ngữ nghĩa giữa chúng ở trong tiếng Anh. Cơ sở dữ liệu từ vựng này có thể được xem như là một loại mô hình từ vựng tinh thần và được gọi là Mạng từ. Mạng từ tiếng Anh chính là Mạng từ đầu tiên trên thế giới. Hiện nay phiên bản 3.1 là phiên bản mới nhất của Mạng từ tiếng Anh, ra mắt người sử dụng vào năm 2012 gồm 155.287 từ, với 117.659 loạt đồng nghĩa gồm 206.941 cặp nghĩa từ, tồn tại dưới dạng nén với kích thước 12MB. Với phiên bản 3.1, trong Anh ngữ không thể có một nguồn ngữ liệu từ vựng nào trực tuyến tốt hơn, đầy đủ hơn (về cách giải thích nghĩa theo lối tôn ti, cách định vị, định trị quan hệ ngữ nghĩa, về việc cung cấp thông tin bách khoa,…), và lớn hơn (xét về số lượng đơn vị từ vựng và số lượng nghĩa được ghi nhận)…

Sau khi ra đời, bên cạnh việc sử dụng vào các mục đích tra cứu thông thường, Mạng từ tiếng Anh được sử dụng rộng rãi trong nhiều ứng dụng liên quan đến xử lí ngôn ngữ tự nhiên trên toàn thế giới và nó đã thúc đẩy, phát triển nhiều nghiên cứu mới.

Với thành công và tầm quan trọng của Mạng từ tiếng Anh này, người ta nhận thấy cần phải phát triển các nguồn tài nguyên từ vựng tương tự như vậy cho các ngôn ngữ khác. Thêm vào đó, nếu như các Mạng từ của các ngôn ngữ khác được xây dựng, người ta sẽ tạo ra được một mạng lưới tài nguyên từ vựng có sự liên kết thống nhất với nhau, giúp cho việc nghiên cứu và ứng dụng được phát triển tốt hơn. Vì thế, các nhà ngôn ngữ học, tin học và tâm lí học Châu Âu đã bắt tay vào việc xây dựng dự án Mạng từ Châu Âu (EuroWordNet). Năm 1996, dưới sự tài trợ của EU, Mạng từ Châu Âu chính thức được bắt đầu, với mục tiêu là phát triển một Mạng từ Châu Âu chung cho các tiếng Hà Lan, Tây Ban Nha và Ý, và liên kết Mạng từ chung này với Mạng từ tiếng Anh để có thể tạo thành một cơ sở dữ liệu từ vựng đa ngôn ngữ.  Mạng từ Châu Âu (vốn được xây dựng dựa trên phiên bản 1.5 của Mạng từ tiếng Anh) không chỉ có lõi tương thích với Mạng từ tiếng Anh, mà còn được mở rộng bổ sung thêm nhiều về mặt đối tượng từ vựng và các quan hệ ngữ nghĩa. Năm 1997, dự án đã được mở rộng để phát triển cho các tiếng Đức, Pháp, Czech, và Estonia. Phiên bản Mạng từ Châu Âu đầu tiên đã ra đời vào cuối năm 1999.

Sau Mạng từ Châu Âu, một mạng từ đa ngữ đầu tiên trên thế giới, Mạng từ Châu Á (Asian WordNet) cũng đã được phát triển. Mạng từ Châu Á được thiết kế chủ yếu dựa trên Mạng từ tiếng Anh đơn ngữ và các nguồn từ điển song ngữ bản ngữ với tiếng Anh. Hiện có trên 10 ngôn ngữ trong Mạng từ Châu Á. Các ngôn ngữ được phát triển trong Mạng từ Châu Á có tỉ lệ như sau: Bengal (0.90%) Indonesia (8.17%), Nhật (30.35%), Hàn Quốc (35.93%), Lào (33.05%), Mông Cổ (1.38%), Myanmar (16.95%), Nepal (0.03%), Sinhala (0.23%), Sundanese (0.06%), Thái (40.27%), và Việt (10.40%) (số liệu của Virach Sornlertlamvanich, 2010).


Biểu diễn đồ hình của từ “run” trong Mạng từ Tiếng Anh. Nguồn: http://wordventure.eti.pg.gda.pl

Hiện nay trên thế giới có tới gần 100 ngôn ngữ, dựa trên Mạng từ gốc là Mạng từ tiếng Anh, đã xây dựng được mạng từ riêng của mình với mức độ hoàn thiện rất khác nhau. Các ngôn ngữ lớn như Nga, Trung, Nhật cũng đều đã có mạng từ riêng của mình.

Bài toán Mạng từ tiếng Việt

Bài toán xây dựng mạng từ dành cho tiếng Việt đã được chúng tôi đặt ra cách đây vài năm. Năm 2014, chúng tôi đã tham gia tổ chức Hội thảo khoa học chuyên đề Hướng tới việc xây dựng Mạng từ tiếng Việtt. Hội thảo đã thảo luận một cách chính thức làm thế nào để xây dựng được một mạng từ dành riêng cho tiếng Việt. Theo yêu cầu của bài toán này, Mạng từ tiếng Việt sẽ có kích thước gồm 30.000 loạt đồng nghĩa, tương đương 50.000 từ trong đó có 30.000 là từ tiếng Việt thông dụng; có các giao diện lập trình ứng dụng (API), cho phép người lập trình sử dụng Mạng từ này bằng một số ngôn ngữ như C++, Java, C#; và ghi nhận và xử lí ba lớp từ loại thực từ, đó là: danh từ, động từ và tính từ. Ngoài các đơn vị được gọi là từ một cách chân chính, trong các loạt đồng nghĩa của Mạng từ tiếng Việt có thể có cả các cụm từ, ngữ định danh vốn có giá trị tương ứng như từ; và bên cạnh việc ghi nhận và xử lí các từ chung, nó còn ghi nhận và xử lí cả các từ riêng, tức các danh từ riêng. Ở trạng thái hiện tại, Mạng từ tiếng Việt có kích thước gồm hơn 60.000 loạt đồng nghĩa, tương đương gần 100.000 đơn vị từ vựng, hơn 60.000 quan hệ nghĩa.


Biểu diễn đồ hình của từ “làm” trong Mạng từ Tiếng Việt. Nguồn: wordnet.vn.

Các ràng buộc và yêu cầu khi xây dựng Mạng từ tiếng Việt

Sau khi đã khảo sát đặc điểm cũng như phương pháp xây dựng Mạng từ tiếng Anh, Mạng từ Châu Âu, và Mạng từ Châu Á, chúng tôi quyết định chọn tiếp cận dịch kết hợp với chỉnh sửa mạng cho phù hợp đặc trưng tiếng Việt.

Khi lựa chọn và đề xuất cách tiếp cận này cho việc xây dựng Mạng từ tiếng Việt, chúng tôi có một số ràng buộc như sau:

(1) Thể hiện được những đặc trưng ngôn ngữ và văn hóa Việt Nam;

(2) Kế thừa và có sự tương ứng cao với Mạng từ tiếng Anh;

(3) Mạng từ tiếng Việt có thể ứng dụng ngay được và thể hiện được một cách hiệu quả trong một số ứng dụng chọn lọc;

(4) Dễ mở rộng và bảo trì trong tương lai.

Ràng buộc (1) là hiển nhiên vì đã là Mạng từ tiếng Việt thì phải mang đặc trưng ngôn ngữ và văn hóa Việt. Ràng buộc (2) được đặt ra để đảm bảo sự thuận tiện khi ứng dụng Mạng từ vào các bài toán như dịch máy hay truy vấn thông tin. Ràng buộc (3) đảm bảo rằng Mạng từ tiếng Việt tuy chưa đạt đến mức như tiếng Anh nhưng cũng không phải chỉ là mô hình trong phòng thí nghiệm, mà phải dùng ngay được cho một số ứng dụng quan trọng như tóm tắt văn bản hay tìm kiếm, có hạn chế trên một số miền nhất định. Ràng buộc (4) là quan trọng vì trong tương lai Mạng từ sẽ còn được và phải được mở rộng và nâng cấp.

Như đã nói, Mạng từ là một sản phẩm liên ngành của ngôn ngữ học, tâm lí học và khoa học máy tính mà trực tiếp nhất là ngôn ngữ học tính toán. Tuy nhiên, không thể phủ nhận được rằng những vấn đề nội dung cốt yếu nhất của nó đều liên quan một cách trực tiếp đến ngôn ngữ học. Do đó, về mặt phương pháp luận khoa học, việc định rõ các yêu cầu ngôn ngữ học đối với việc xây dựng Mạng từ là vô cùng cần thiết.

Những điểm đặc thù của từ vựng tiếng Việt được thể hiện trong Mạng từ tiếng Việt chủ yếu thuộc về hai phạm trù: phạm trù ngôn ngữ và phạm trù phi ngôn ngữ.

Ở phạm trù ngôn ngữ, những điểm đặc thù của tiếng Việt được thể hiện ở bình diện cấu tạo từ. Chính cơ chế cấu tạo từ theo phép ghép và phép láy yếu tố tạo nên những điểm đặc thù này. Do đó, Mạng từ tiếng Việt phải có:

Hệ thống từ ghép đẳng lập, ví dụ như: nhà cửa, quần áo, nhanh chóng, mau chóng,…

Hệ thống từ láy, ví dụ như máu me, xấu xí, xấu xa, đẹp đẽ,…

Hệ thống từ ghép chính phụ biệt loại, ví dụ như xe đạp, xe máy, cá rô, nhà sàn,…

Hệ thống từ ghép chính phụ biệt nghĩa, ví dụ như đen sì, đen bóng, đen nhánh,…

Tổ hợp ghép chính phụ trong tiếng Việt có các yếu tố từ pháp có giá trị danh hoá, ví dụ sự học, việc học, chuyện học, nỗi buồn, niềm vui,…

Ở phạm trù phi ngôn ngữ, phạm trù văn hóa – nhận thức, Mạng từ tiếng Việt sẽ phải ghi nhận một số hiện tượng đặc thù của riêng người Việt được thể hiện chủ yếu trong quan hệ bao nghĩa, thuộc nghĩa và quan hệ tổng nghĩa, phân nghĩa. Ví dụ như:

nghệ thuật > sân khấu > chèo/ tuồng,…
dân ca > quan họ/ ví dặm,…
lễ tết > tết Nguyên đán/ tết Trung thu,…
dép > dép lốp/ dép cao su,…
bếp > bếp Hoàng Cầm,…
dân tộc > Kinh/ Tày/ Thái,…
quần đảo > Hoàng Sa, Trường Sa,….
làng > Mộ Trạch/ Đường Lâm,…
nguyên thủ quốc gia > Hồ Chí Minh/ Phạm Văn Đồng,…
chợ > chợ Đồng Xuân/ chợ Bến Thành,…
thuộc tính > ….. > Chí Phèo/ Hoạn Thư,…


Các bước xây dựng Mạng từ Tiếng Việt.

Các quan hệ ngữ nghĩa chính trong Mạng từ tiếng Việt

Mạng từ giống như là một đồ thị rời rạc khổng lồ, trong đó mỗi nút là một loạt từ đồng nghĩa và mỗi cạnh là một quan hệ ngữ nghĩa nối các nút lại với nhau. Số lượng nghĩa của ngôn ngữ tự nhiên là vô hạn, số lượng quan hệ nghĩa của ngôn ngữ tự nhiên lại là n cái vô hạn. Trên thực tế, các Mạng từ thường chỉ xử lí khoảng 10 loại quan hệ ngữ nghĩa. Xét ở một phương diện nào đó, mạng từ cũng chỉ là một loại mô hình hóa giản đơn cái cấu trúc vô cùng phức tạp của từ vựng tinh thần (mental lexicon) của ngôn ngữ tự nhiên.

Quan hệ đồng nghĩa: Tồn tại trong cả ba lớp từ loại danh từ, động từ và tính từ, là quan hệ giữa những từ có nghĩa giống nhau hoặc gần giống nhau mà có thể thay thế cho nhau được trong một số ngữ cảnh sử dụng. Ví dụ: người – mình – cơ thể, dạ dày – bao tử, ăn – xơi – dùng,…

Quan hệ bao thuộc: Có mặt trong hệ thống danh từ của Mạng từ. Ví dụ: thực vật – hoa, hoa – hoa hồng, hoa hồng – hoa hồng bạch; công cụ – công cụ học tập, công cụ học tập – bút, bút – bút lông; động vật – gia súc, gia súc – chó, chó – chó Phú Quốc. Trong dãy những ví dụ dẫn ở đây, ở từng cặp từ một, những từ bên trái được xem là những từ bao (hypernym), còn những từ bên phải được xem là những từ thuộc (hyponyms).

Quan hệ tổng phân. Cũng là quan hệ chỉ có mặt ở hệ thống danh từ, và cùng với quan hệ bao thuộc, nó là quan hệ xương sống của hệ thống danh từ của Mạng từ. Quan hệ tổng phân là quan hệ giữa một từ tổng (holonym) và một từ phân (meronym); từ phân được xem như là một trong những bộ phận, thành viên,… của từ tổng. Ví dụ: cơ thể – đầu, đầu – mắt, mắt –lòng đen, lòng đen – con ngươi; cây – cành, cành – lá, lá – cuống (lá);

Quan hệ cách: Là quan hệ chủ yếu của lớp từ loại động từ, trong đó nghĩa của từ này (được gọi là từ bao) thể hiện cách thức hoạt động của từ kia (được gọi là từ cách/ troponym). Từ A có quan hệ cách với từ B tức là từ B là từ A theo một cách nào đó. Ví dụ như trong cặp quan hệ cách biến đổi – biến đổi trạng thái thì biến đổi trạng thái là một cách biến đổi, trong cặp quan hệ biến đổi trạng thái – chết thì chết là một cách biến đổi trạng thái, trong cặp quan hệ chết – tự tử thì tự tử là một cách chết.

Quan hệ trái nghĩa: Là quan hệ tồn tại chủ yếu ở lớp tính từ, giữa những từ ngược nhau hay đối lập loại trừ nhau về nghĩa. Ví dụ: đẹp – xấu, yêu – ghét, to – nhỏ, dài – ngắn, thơm – thối, sạch – bẩn,.… Trong Mạng từ, các tính từ được nối với nhau chủ yếu nhờ quan hệ trái nghĩa.

Quan hệ thuộc tính: Là quan hệ tồn tại giữa lớp từ loại danh từ chỉ thực thể (thường là thực thể trừu tượng, có tính liên quan tâm lí cao) và tính từ chỉ thuộc tính. Về bản chất, quan hệ thuộc tính có thể tồn tại giữa động từ và tính từ; nhưng kiểu quan hệ này nói chung khá phức tạp, nên thường không được ghi nhận. Đối với quan hệ thuộc tính giữa danh từ và tính từ, Mạng từ trước nhất thường chỉ ghi nhận và xử lí những cặp từ có quan hệ thuộc tính lưỡng trị trừu tượng kiểu như kích thước – to/ nhỏ, vận tốc – nhanh/ chậm, số lượng – nhiều/ ít, sức mạnh – yếu/ khoẻ,… Trong những ví dụ này, các từ đứng ở phía tay phải là những từ chỉ thức thể trừu tượng mang giá trị thuộc tính; những từ đứng ở phía tay trái là những từ chỉ giá trị thuộc tính.

Quan hệ nhân quả: Là quan hệ tồn tại trong lớp từ loại động từ. Ví dụ như triệu tập – họp, giết – chết, đập – vỡ, tìm – thấy,… Trong các cặp từ này, từ đứng phía tay trái thể hiện nguyên nhân, từ đứng phía tay phải thể hiện kết quả.

Quan hệ suy ra: Là quan hệ tồn tại trong lớp từ loại động từ, trong đó hành động được biểu thị ở từ này chỉ có thể tồn tại khi có xự xuất hiện hành động được biểu thị ở từ kia. Đó là quan hệ giữa những từ kiểu như, ngáy suy ra ngủ, ngáp ngủ suy ra buồn ngủ, gãi suy ra ngứa, gỡ suy ra rối, suy ra rách, bội ước suy ra cam kết,

Khả năng ứng dụng của Mạng từ

Có thể chắc chắn một điều rằng, cho đến nay, trên thế giới vẫn chưa có một nguồn tài nguyên từ vựng trực tuyến được tổ chức dựa trên các quan hệ ngữ nghĩa nào lớn hơn, toàn diện, và hệ thống hơn Mạng từ.

Mạng từ nói chung trước hết là một tài nguyên từ vựng dành cho máy tính. Vì vậy, hàng loạt các công việc liên quan đến ứng dụng máy tính vào xử lí ngôn ngữ tự nhiên, liên quan đến lĩnh vực khoa học trí tuệ nhân tạo, đều cần đến Mạng từ, hoặc chí ít, nếu sử dụng Mạng từ thì kết quả công việc sẽ được cải thiện một cách đáng kể. Những công việc liên quan đến máy tính cần đến Mạng từ là dịch máy, trích rút và phục hồi thông tin, đo đạc ngữ nghĩa, tách từ, nhận dạng tiếng nói, tổng hợp tiếng nói, soạn thảo văn bản, kiểm tra lỗi chính tả, phân loại văn bản, tóm tắt văn bản, hỏi và trả lời tự động, xây dựng các nguồn tài nguyên từ vựng hay liên quan đến từ vựng hoặc sử dụng tới từ vựng dành riêng cho máy, xây dựng các mạng ngữ nghĩa,….

Xét từ góc độ ngôn ngữ học, với tư cách là một sản phẩm liên ngành ngôn ngữ học – khoa học máy tính – tâm lí học, Mạng từ ra đời là để kiểm chứng cho một số lí thuyết ngôn ngữ học tâm lí, tâm lí học tri nhận… về trí nhớ ngữ nghĩa được hình thành và phát triển vào giữa thế kỉ trước; đồng thời, nó cũng là một phần kết quả dẫn xuất từ các nghiên cứu thực nghiệm về bệnh học ngôn ngữ, thụ đắc ngôn ngữ,… Thậm chí, Mạng từ, nói như một số người từng nhận xét, được xem như là một công trình lớn nhất về từ vựng để minh chứng cho chủ nghĩa cấu trúc trong ngôn ngữ học thế kỉ XX (Geeraerts, 2010). Vì thế, trên thực tế, Mạng từ có thể được ứng dụng vào nhiều công việc liên quan đến việc nghiên cứu và giảng dạy tiếng. Mạng từ có thể được sử dụng như một cuốn từ điển trực tuyến để tra cứu từ vựng. Chẳng hạn. hiện nay hầu như tất cả các nguồn tài nguyên từ vựng đa ngữ (Anh – Việt, Anh – Trung, Anh – Đức, Anh – n,…), đơn ngữ dưới dạng trực tuyến hay điện từ đều đã sử dụng tới Mạng từ tiếng Anh.

Bởi Mạng từ của mỗi một ngôn ngữ có thể được xem như là một mô hình từ vựng tinh thần toàn diện và lớn nhất cho chính ngôn ngữ ấy, vì thế, nhiều công việc nghiên cứu và ứng dụng liên ngành ngôn ngữ học – tâm lí học (như nghiên cứu các phạm trù tâm lí – ngôn ngữ, các mã tâm lí, nhận thức trong quá trình phạm trù hoá hiện thực,…) đều phải cần đến Mạng từ. Mạng từ, đối với những ứng dụng như thế này, có thể vừa được xem như là những điểm xuất phát vừa được xem như là những điểm đích để người ta xây dựng và hoàn thiện. Vì là một mô hình từ vựng tinh thần, Mạng từ cũng có thể được sử dụng cho các công việc liên quan đến việc phục hồi ngôn ngữ, chữa các bệnh liên quan đến ngôn ngữ,…

Với từ cách là một cơ sở dữ liệu về nghĩa từ và các quan hệ ngữ nghĩa đầu tiên và hệ thố́ng nhất của ngôn ngữ, người ta có thể sử dụng phương pháp luận của Mạng từ để phát triển, biên soạn các loại từ điển ngữ văn, từ điển chuyên ngành thứ cấp, có thể sử dụng Mạng từ vào các công việc nghiên cứu ngôn ngữ nói chung và đối chiếu ngôn ngữ nói riêng…
————
1 http://vienngonnguhoc.gov.vn/bai-viet/hoi-thao-khoa-hoc-huong-toi-viec-xay-dung-mang-tu-tieng-viet_581.aspx
2 http://wordnet.vn/vi/chi-tiet/tong-quan-ve-xay-dung-mang-tu-tieng-viet-18-1.html

Mạng từ Tiếng Việt hiện đang tồn tại ở địa chỉ http://wordnet.vn. Đây là một sản phẩm của đề tài khoa học cấp Nhà nước mã số KC.01.20/11-15 được thực hiện từ năm 2013-2015. Đề tài này do công ty Naiscorp (từng rất nổi tiếng với công cụ tìm kiếm Sóc bay và được Google đề xuất mua lại với giá 25 triệu USD vào năm 2009) chủ trì, PGS. TS Nguyễn Phương Thái, Đại học Công nghệ, ĐH Quốc gia Hà Nội làm chủ nhiệm đề tài. Nhưng đây mới chỉ là một phiên bản đầu được ưu tiên thiết kế cho các công việc liên quan đến xử lí ngôn ngữ. Để có được một Mạng từ tiếng Việt tinh, lí tưởng như tiếng Mạng từ tiếng Anh và để có thể sử dụng tra cứu trực tuyến như một từ điển ngữ văn hoàn hảo, cần phải đầu tư thêm rất nhiều công sức, thời gian và của cải.

Tác giả