TiaSang
Thứ 5, Ngày 16 tháng 7 năm 2020
Khoa học và Công nghệ

Nhìn từ sự việc chữ Việt Nam song song 4.0: Nếu không cải tiến chữ Việt thì ưu tiên nghiên cứu gì?

11/04/2020 07:00 - Đặng Minh Tuấn

Về mặt ngôn ngữ học, chữ Việt Nam song song 4.0 (CVNSS4.0) không tuân thủ cấu trúc của tiếng Việt và không thể sử dụng như là hệ thống ký âm, mà chỉ đơn thuần là hệ thống ký hiệu hay quy tắc gõ tắt. Nhưng tác giả cũng cho biết CVNSS4.0 sẽ hữu ích trên môi trường internet. Do đó, trong bài viết này chúng tôi xin chỉ ra tính không khả thi về phương diện công nghệ thông tin nếu cải tiến và sử dụng CVNSS4.0 để thay thế cho chữ Quốc ngữ. Và hơn cả, một câu hỏi tôi muốn đặt ra thảo luận là, hiện nay cần ưu tiên nghiên cứu những gì?

1. Tính đơn trị: Một trong những nguyên tắc khi xây dựng hệ thống ký mã, hay một bộ tiêu chuẩn là phải bảo đảm tối đa tính đơn trị, và hàm số phải là song ánh giữa 2 tập, có nghĩa là hệ thống ký mã phải có tính một-một, ví dụ âm /a/ thì chỉ có mã duy nhất là 97, và 97 là mã duy nhất cho chữ /a/. Như vậy chữ /a/ không thể lúc này là mã 97, lúc khác lại là mã 64, hay mã 97 không thể lúc này là chữ /a/ lúc khác lại là chữ /m/. 
 
Trong khi đó CVNSS4.0 không tuân thủ tính đơn trị. Cụ thể, riêng về dấu thì có đến 3 ký hiệu cho dấu sắc - tùy theo nó đi với nguyên âm nào, lúc thì nó là /B/, lúc khác lại là /J/ lúc khác nữa lại là /X/. Tương tự các dấu huyền, hỏi, ngã, nặng cũng có 3 ký hiệu khác nhau tùy thuộc vào lúc nó kết hợp với chữ nào. Về ký hiệu, ký hiệu /B/ lúc này là phụ âm, lúc lại là dấu huyền. Và còn nhiều trường hợp khác cũng tương tự.
 
2. Quá rắc rối, nhiều quy tắc cho những điều bất quy tắc: Vì không có tính đơn trị nên CVNSS4.0 rắc rối và nhập nhằng trong ký hiệu, buộc người dùng phải nhớ nhiều quy tắc và phải phân tích trong đầu trong khi gõ. Trong khi kiểu gõ Telex hay VNI chỉ cần 8 quy tắc đơn giản (5 cho dấu thanh, 3 cho các dấu mũ trong các chữ /ô, ê, â /, dấu trăng trong /ă/ dấu móc trong /ơ, ư/ và chữ /đ/) thì CVNSS4.0 cần đến 52 quy tắc, trong đó có nhiều quy tắc khá khó nhớ, gây phiền phức cho người dùng do buộc họ phải xử lý một thuật toán if-then (nếu-thì) khá lớn.
 
3. Tiết kiệm không gian lưu trữ? CVNSS4.0 dùng quy tắc gõ tắt để giảm bớt 1 ký tự và trong 1 số ít trường hợp có thể giảm được 2 ký tự. Ngoài ra CVNSS4.0 chỉ dùng 26 ký tự nên có thể dùng bộ mã 7-bit để mã hóa, không cần dùng đến bộ mã 16-Bit như tiếng Việt Unicode đang sử dụng. Tuy nhiên, để tiết kiệm không gian lưu trữ ký tự cho chữ Quốc ngữ, nếu không tuân thủ các ký hiệu ký âm quốc tế thì có thể dùng mã Huffman thì sẽ tiết kiệm không gian triệt để hơn nhiều. Trong thực tế, người ta sẵn sàng trả giá về không gian lưu trữ để có tính dễ dàng cho người đọc hơn, vì thế người ta dùng ký hiệu chữ chứ không dùng các con số. 


Có nhiều cách gõ dấu thanh khác nhau trên máy tính, trong đó ba kiểu phổ biến nhất là VIQR, VNI và Telex. Ảnh: Wikipedia. 
 
4. CVNSS4.0 gõ năng suất và nhanh hơn? Nếu không dùng các kỹ thuật nâng cao thì đúng là CVNSS4.0 gõ nhanh hơn vì sử dụng nhiều quy tắc gõ tắt (tăng 25-20% như tác giả cho biết thì chưa có minh chứng). Nhưng đổi lại người dùng phải trả giá: buộc phải nhớ nhiều quy tắc và phải liên tục phân tích các tình huống vị trí ký tự, kết hợp với ký tự trong từ... Trong thực tế, có nhiều cách để nâng cao tốc độ gõ hơn rất nhiều, ví dụ ứng dụng Laban Key và các bộ gõ khác trên điện thoại di động có thể dùng AI hay thống kê xác suất để dự đoán và gợi ý từ thậm chí cả cụm từ mà CVNSS4.0 không thể nào so sánh được về tốc độ. Mặt khác, nếu không dùng các kỹ thuật thống kê và AI để dự đoán cả từ thì với một bộ luật gõ đơn giản người sử dụng cũng có thể gõ với tốc độ rất nhanh (do não không phải xử lý thuật toán gõ tắt, if-then). 
 
5. CVNSS4.0 chính xác hơn? Không đúng, vì chữ khi gõ đầy đủ dấu thì Quốc ngữ hiện hành vẫn chính xác như thế, thậm chí có thể biểu đạt được nhiều phương ngữ vùng miền hơn.
Về tính khả thi
 
Có thể khẳng định ngay CVNSS4.0 cũng như các cải tiến khác cho chữ Việt trong vòng hơn 100 năm trở lại đây đều không khả thi vì lợi ít-cập hại.
 
Đành rằng chữ Việt hiện tại có thể còn một số điểm chưa được tối ưu (còn một số rất ít điểm nhập nhằng, ví dụ /c-k/, /d-gi/), một số chữ chưa phù hợp với ngữ âm quốc tế, nhưng suy cho cùng ngôn ngữ không phải là hệ thống định lý toán học mà là hệ thống quy ước xã hội. Kể cả có vài điểm sai nhưng nhiều người dùng và nhiều người hiểu thì đều chấp nhận được, và điều này cũng rất phổ biến trong hầu hết các ngôn ngữ khác trên thế giới.
 
Đề xuất cải tiến nhằm tăng năng suất như CVNSS4.0 đưa ra sẽ mang lại lợi ích rất ít mà phá vỡ rất nhiều. Giả sử nếu CVNSS4.0 được triển khai thì không chỉ làm đứt gãy các nét văn hóa của chữ Việt đã tồn tại hơn 100 năm mà cũng cực kỳ tốn kém về mặt tài chính và bất khả thi về CNTT. Tiết kiệm được một chút thời gian, một chút bộ nhớ lưu trữ thì lại tốn kém thời gian, công sức và tiền bạc không thể kể xiết để chuyển đổi hệ thống cũ sang hệ thống chữ viết mới.  
 
Chỉ cần lấy ví dụ mỗi lần đổi tên tỉnh, tách nhập tỉnh hay chỉ đơn thuần thêm chữ số hoặc thay đổi chữ số ở số điện thoại thôi cũng gây nên đảo lộn. Chúng ta còn nhớ, khi tiêu chuẩn về bộ mã ký tự tiếng Việt mới là TCVN 6909:2001 được ban hành thì tự nó vẫn chưa thể đi vào cuộc sống được, và kể từ khi Thủ tướng Chính phủ ra Quyết định 72/2002/QĐ-TTg yêu cầu tất cả các cơ quan Nhà nước chuyển sang dùng font chữ Unicode từ ngày 1-1-2003 mà đến tận gần 10 năm chúng ta mới cơ bản chuyển xong. Chưa kể đó chỉ là chuyển đổi mã, tất cả cách gõ và hình chữ đều như cũ, còn với CVNSS4.0 không chỉ thay đổi cách gõ, thay đổi dáng chữ mà còn thay đổi một thói quen nhiều chục năm. Tóm lại việc chuyển đổi và thay thế chữ Quốc ngữ bằng CVNSS4.0 sẽ gây lãng phí rất lớn và bất khả thi. 
 
Còn nếu nó chỉ là một phương pháp gõ tắt thì không cần phải dành quá nhiều tâm huyết đến như vậy, bởi sau khi gõ xong bắt buộc nó phải hiển thị về chữ Quốc ngữ và như vậy mọi lập luận về tính ưu việt của CVNSS4.0 không còn đúng nữa, và nếu đã là một cách gõ thì hãy để người dùng lựa chọn như cách họ lựa chọn giữa Telex và VNI vậy.
 
Cần ưu tiên nghiên cứu những gì?
 
Nếu như các nhà ngôn ngữ học đã khẳng định không nên cải cách chữ Quốc ngữ nữa, thì ngành công nghệ thông tin cũng có chung câu trả lời như vậy. Cho đến nay chữ Việt đã ổn định, các công cụ hỗ trợ tiếng Việt như font chữ, bộ gõ tiếng Việt đã được hầu hết các hãng sản xuất phần mềm và phần cứng tích hợp vào sản phẩm của mình. Windows, MacOS, Android, IOS cũng đều có sẵn bộ gõ tiếng Việt mà không cần phải cài đặt thêm phần mềm bộ gõ riêng (tuy nhiên nếu cài các bộ gõ riêng như Unikey, Vietkey thì sẽ có nhiều tính năng hơn: kiểm tra chính tả, chuyển mã, gõ tắt...).
 

Nếu không nghiên cứu, quy hoạch tổng thể về chữ viết, đăng ký bộ mã ký tự các ngôn ngữ của các dân tộc ở Việt Nam vào trong bảng mã Unicode thì sẽ hết chỗ hoặc rơi vào các dải số bất lợi. Ảnh: Người dân tộc Thái học chữ Thái. Nguồn: Báo Nghệ An.  
 
Những bài toán đang đặt ra cho nghiên cứu tiếng Việt và xử lý ngôn ngữ tiếng Việt (mà nhiều viện, trường, doanh nghiệp đang nghiên cứu) là những chủ đề khác, gồm: tách từ, phân loại tên thực thể từ, phân loại văn bản, tóm tắt văn bản, sinh văn bản, nhận dạng/tổng hợp tiếng Việt, nhận dạng chữ Việt, trích rút thông tin, chính tả tiếng Việt, dịch máy văn bản tiếng Việt sang các ngôn ngữ khác... Trong đó, một số bài toán trong lĩnh vực tiếng Việt đã được giải quyết khá tốt, bên cạnh đó vẫn còn nhiều bài toán mới ở bước sơ khởi và còn nhiều thách thức như trích rút thông tin, tóm tắt văn bản, dịch máy... Đây mới chính là những vấn đề quan trọng cần phải tiếp tục nghiên cứu.
 
Mặt khác, một vấn đề rất cấp thiết hiện nay là tạo văn bản trên máy tính nhằm giữ gìn và bảo tồn ngôn ngữ của đồng bào dân tộc thiểu số. Trong số 54 dân tộc thiểu số, có 24 dân tộc có chữ viết riêng của mình, còn lại nhiều dân tộc chưa có chữ viết. Trong số những dân tộc có chữ viết thì cũng còn nhiều chữ viết chưa được mã hóa, chưa có font chữ và bộ gõ trên máy tính. Không có chữ viết và font chữ thì rất khó để bảo tồn và duy trì ngôn ngữ đó, không quảng bá được trên Internet... Có một số đề tài khoa học trong nước đã tiến hành xây dựng cách viết cho một số ngôn ngữ chưa có chữ viết bằng việc sử dụng các ký tự Latin và sử dụng các tổ hợp ký tự tiếng Việt để tạo các ký tự chữ viết cho ngôn ngữ đó, nhằm hạn chế phải xây dựng font chữ và bộ gõ mới cho ngôn ngữ, tuy nhiên phương pháp này không tuân thủ theo ký mã ngữ âm quốc tế, rườm rà, và không bảo đảm tính đơn trị và tính nghệ thuật của chữ viết, cần phải có những nghiên cứu triệt để hơn nữa.
 
Trong khi đó, các giải pháp xây dựng cách viết cho ngôn ngữ dân tộc thiểu số hiện nay đang thực hiện thiếu quy hoạch và đồng bộ, dẫn đến việc chồng lấn mã ký tự và chưa tương thích với nhau cũng như chưa tương thích với tiêu chuẩn Unicode của thế giới. Thêm nữa, các ký tự chữ viết dân tộc thiểu số dù đã được mã hóa hay chưa thì đa phần đều chưa được quy hoạch và chưa được đăng ký trong bản đồ ký tự Unicode thế giới. Nếu không đăng ký, đề xuất sớm, kho ký tự Unicode càng ngày càng giảm và nếu có cũng sẽ rơi vào các khu vực phải sử dụng dải số bất lợi trong kho ký tự này. Vì vậy việc làm cần thiết ngay trong việc bảo tồn ngôn ngữ của các đồng bào dân tộc thiểu số là quy hoạch tổng thể về chữ viết, xây dựng chữ mới cho các ngôn ngữ chưa có chữ viết và đăng ký bộ mã ký tự của các ngôn ngữ vào trong bảng mã Unicode.
 
Để phát huy tính sáng tạo trong lĩnh vực ngôn ngữ thì còn rất nhiều những vấn đề và thách thức đang chờ đợi những người có tâm huyết để giải quyết mà không nhất thiết phải đi cải tiến con chữ đã ổn định đã được cả dân tộc chấp nhận và yêu mến từ bao đời nay.
 
Sơ lược về Chữ Việt Nam song song 4.0 (CVNSS4.0)
CVNSS4.0 do hai tác giả Trần Tư Bình và Kiều Trường Lâm đề xuất gồm 3 thành phần: Chữ Quốc ngữ hiện hành, Chữ viết nhanh và Ký hiệu dấu.
Chữ viết nhanh (của tác giả Trần Tư Bình) gồm 5 nhóm quy tắc:
1. Bỏ dấu sắc ở các từ có các phụ âm cuối c,p,t,ch.
2. Thay Y ->I và thay UY ->Y;
3. Đổi một số phụ âm đầu 2 ký tự bằng 1 ký tự như PH->F; KH->K; GH->G; NGH,NG->W...
4. Đổi một số phụ âm cuối 2 ký tự bằng 1 ký tự: NG->G; CH->K.
5. Rút gọn 52 nguyên âm có 3-4 ký tự thành nhóm 2 ký tự: uyết->yd, uyên->yl...
Ký hiệu dấu (của tác giả Kiều Trường Lâm)
1. Quy ước ký hiệu dấu sắc, huyền, hỏi, ngã, nặng->J,L,Z,S,R; khi có dấu mũ thì ký hiệu dấu đổi thành B,D,Q,G,H; khi có dấu trăng thì ký hiệu dấu đổi thành X,K,V,W,H.
2. Ký hiệu cho dấu mũ trong /â, ê, ô/, là Y, dấu trăng và móc trong /ă, ơ, ư/ là O và không dấu là P.
Khẳng định của các tác giả: CVNSS4.0 ngắn gọn hơn chữ Việt hiện hành; CVNSS4.0 chỉ dùng 26 ký tự tiếng Anh để viết nên không cần bộ gõ chuyên dụng như Vietkey, Unikey mà dùng luôn bộ gõ tiếng Anh có sẵn; CVNSS4.0 gõ nhanh hơn 25-30% so với bộ gõ Telex hay VNI; CVNSS4.0 có độ chính xác cao.