Lời mở đầu: Luật tiến bộ nhưng có một số nút thắt chưa làm rõ lời giải cho doanh nghiệp
Chỉ trong ít tháng đầu năm 2026, cộng đồng công nghệ Việt Nam chứng kiến hai bộ luật có sức ảnh hưởng định hình cả một thập kỷ, Luật Bảo vệ Dữ liệu cá nhân và Luật Trí tuệ nhân tạo (AI), bắt đầu có hiệu lực đi vào đời sống. Đi kèm với đó là các nghị định hướng dẫn, đặc biệt là phần quy định cực kỳ chặt chẽ về xử lý dữ liệu lớn (Big Data).
Việt Nam thuộc nhóm rất ít quốc gia trên thế giới sở hữu cùng lúc một bộ luật AI hoàn chỉnh và một đạo luật bảo vệ dữ liệu cá nhân tiệm cận chuẩn GDPR của châu Âu.
Với góc độ một người nghiên cứu và huấn luyện AI, lo ngại và nhiều lần lên tiếng về các vấn đề quyền con người, đặc biệt là quyền riêng tư, về hệ lụy của theo dõi thuật toán lên con người trong kỷ nguyên số, tôi thấy đó là tin mừng vì nó cho thấy tư duy lập pháp đã trưởng thành, đã nhìn ra được tầm quan trọng của việc kiến tạo "luật chơi" cho kỷ nguyên số.
Tuy nhiên, việc tuân thủ đồng thời cả hai luật này sẽ dẫn tới một số nút thắt. Trong đó, có những điểm bất khả thi về mặt kỹ thuật - tức là dù doanh nghiệp có thiện chí đến đâu, có ngân sách lớn đến đâu, vẫn không có cách nào tuân thủ trọn vẹn cả hai luật cùng lúc. Bài viết này sẽ điểm qua 10 nút thắt như vậy, sắp xếp theo mức độ quan trọng giảm dần.
Bài toán trong thu thập dữ liệu công khai để huấn luyện mô hình
Đây là điểm doanh nghiệp khó thực hiện nhất, và nếu không được giải thích và tháo gỡ, sẽ ảnh hưởng tới ngành AI nội địa.
Về huấn luyện AI, Luật AI tại Điều 7 quy định không được "thu thập, xử lý dữ liệu trái quy định về bảo vệ dữ liệu cá nhân, sở hữu trí tuệ và an ninh mạng để phát triển, vận hành AI".
Còn Luật Bảo vệ Dữ liệu cá nhân tại Điều 9 yêu cầu dữ liệu cá nhân thu thập được phải được sự đồng ý phải "rõ ràng, tự nguyện, có tính khẳng định, thể hiện đối với từng mục đích". Nghị định 356 siết chặt hơn: dữ liệu lớn chỉ được xử lý "đúng phạm vi, phù hợp với mục đích cụ thể và rõ ràng".
Trong khi đó, để xây dựng một mô hình ngôn ngữ lớn (LLM) chất lượng, kỹ sư cần hàng tỷ token (đơn vị văn bản) tiếng Việt. Phương pháp khả thi là web scraping (phương thức thu thập dữ liệu bằng cách quét tự động dữ liệu công khai trên Internet). Quá trình này chắc chắn sẽ thu thập tên người, email, quan điểm cá nhân, hình ảnh nhận dạng được... lẫn trong các bài viết, comment, bình luận trực tuyến.
Minh họa: Mỹ Hạnh
Khi đó, nếu hiểu cứng nhắc mọi dữ liệu đều phải có sự đồng ý "rõ ràng, tự nguyện", đòi hỏi doanh nghiệp liên hệ với hàng triệu cá nhân xin đồng ý "cho phép dùng dữ liệu của bạn để huấn luyện AI". Đây là điều bất khả thi trên mọi phương diện. Trong khi đó, pháp luật Việt Nam hiện chưa công nhận học thuyết "Sử dụng hợp lý" (Fair Use) hay "Lợi ích hợp pháp" (Legitimate Interest) [1] như các nước thuộc khối thịnh vượng chung Châu Âu (EU) đang áp dụng linh hoạt cho AI Act của họ.
Góc nhìn cá nhân: Tôi cho rằng đây là vùng xám khó giải quyết nhất. Nếu hiểu cứng nhắc, và cũng không có giải pháp khả thi về kỹ thuật để xác định từng nguồn thông tin thu thập trên mạng cho mục đích huấn luyện, các doanh nghiệp sẽ rất bất an, thậm chí lo ngại phải tiêu hủy các mô hình AI đã đầu tư hàng triệu USD.
Giới hạn kỹ thuật với "quyền được lãng quên"
Từ ngày 01/01/2026, mọi công dân Việt Nam hợp pháp đều có quyền yêu cầu xóa dữ liệu cá nhân của mình khỏi mọi hệ thống. Nghị định 356 quy định "doanh nghiệp phải phản hồi trong 02 ngày làm việc và hoàn tất việc xóa trong 20 ngày".
Quy định này hoàn toàn hợp lý nếu nói về cơ sở dữ liệu truyền thống, khi đó các kỹ sư dữ liệu chỉ cần một câu lệnh DELETE FROM users WHERE id = ... là xong. Nhưng khi áp dụng vào hệ thống AI, đây là quy định bất khả thi về kỹ thuật, vì dữ liệu trong các ứng dụng trí tuệ nhân tạo nói chung và mô hình ngôn ngữ (LM - Language Model) nói riêng, là một dòng chảy một chiều và gần như không thể truy vết ngược.
Trong một mạng neural đã huấn luyện, dữ liệu cá nhân không tồn tại dưới dạng văn bản thô - dưới dạng chữ viết có thể đọc hiểu được - mà nó đã bị "hòa tan" thành hàng tỷ trọng số toán học (weights và biases) phân bổ khắp các lớp của mô hình.
Việc trích xuất và xóa dữ liệu của một người cụ thể mà không phá hỏng phần còn lại là một bài toán mà giới khoa học máy tính gọi là Machine Unlearning, và hiện tại vào tháng 5/2026 thế giới chưa có giải pháp hoàn chỉnh nào để xử lý vấn đề này.
Trong một mạng neural đã huấn luyện, dữ liệu cá nhân không tồn tại dưới dạng văn bản thô - dưới dạng chữ viết có thể đọc hiểu được - mà nó đã bị "hòa tan" thành hàng tỷ trọng số toán học (weights và biases) phân bổ khắp các lớp của mô hình. Ảnh: Magnific.
Hiện tượng phổ biến nhất khi cố gắng "dạy AI cách quên" là catastrophic forgetting, đây là hiện tượng mà mô hình khi cố "quên" một dữ liệu sẽ vô tình mất đi nhiều khả năng khác không liên quan. Cách duy nhất an toàn là huấn luyện lại từ đầu (retrain), nhưng việc này tiêu tốn hàng trăm nghìn đến hàng triệu USD chi phí điện toán cho một mô hình quy mô vừa.
Trong 20 ngày, làm sao một doanh nghiệp vừa và nhỏ có thể retrain xong một mô hình lớn? Câu trả lời là không thể. (tôi kết luận dựa trên cơ sở hạ tầng và kỹ thuật tại Việt Nam vào thời điểm viết bài)
Góc nhìn cá nhân: Đây là một ví dụ kinh điển về việc luật pháp truyền thống điều chỉnh công nghệ mới. Tôi nghĩ giải pháp khả dĩ là cơ quan quản lý ban hành Tiêu chuẩn Kỹ thuật Quốc gia (TCVN) công nhận các phương pháp thay thế như: output filters, guardrails, hoặc certified anonymization... như một cách "hoàn thành nghĩa vụ xóa dữ liệu" mà không phải retrain. Nếu không, thì chi phí tuân thủ, retrain sẽ rất lớn mà rồi cũng không khả thi.
Khái niệm "minh bạch": Không ai có thể giải thích đầy đủ cách chiếc hộp đen AI vận hành
Đây là điểm xung đột giữa các quy định mà chúng ta dễ thấy ngay trong vận hành hàng ngày của các ngân hàng, công ty bảo hiểm, fintech.
Luật Trí tuệ nhân tạo tại Điều 14 khẳng định việc giải trình "không được yêu cầu tiết lộ mã nguồn, thuật toán chi tiết, bộ tham số hoặc thông tin thuộc bí mật kinh doanh, bí mật công nghệ". Quy định bảo vệ tài sản trí tuệ này rất hợp lý cho doanh nghiệp.
Nhưng cùng lúc đó, Nghị định 356 tại Điều 10 lại yêu cầu bên kiểm soát dữ liệu phải "giải thích nguyên tắc hoạt động của thuật toán và ảnh hưởng đối với quyền và lợi ích hợp pháp của chủ thể dữ liệu". Đây là quyền được biết của người sử dụng công nghệ mà theo tôi thì... cũng hợp lý!
Vấn đề là: các mô hình học sâu và các mô hình Ngôn ngữ hiện đại là "black box" thực sự - nghĩa là chúng ta gần như không thể giải thích được toàn bộ cách mà các thuật toán này vận hành (vì với cùng đầu vào, vẫn có hiện tượng "ảo giác", cho ra kết quả khác nhau mà không ai hiểu tại sao).
Ngay cả chúng tôi, các kỹ sư phát triển AI cũng không thể trả lời chính xác, chẳng hạn với câu hỏi "tại sao mô hình lại từ chối khoản vay này?" theo cách mà một người không chuyên có thể hiểu (vì nếu có thể giải thích được thì các kỹ sư đã dùng phương pháp xử lý theo điều kiện if... else... để tiết kiệm chi phí thay vì phải sử dụng mô hình AI). Mọi quyết định đều là kết quả của hàng triệu phép toán phi tuyến đan xen nhau.
Các mô hình học sâu và các mô hình ngôn ngữ vẫn là "black box" khiến ngay cả các kỹ sư AI cũng chưa hiểu hết. Ảnh: Magnific.
Vậy doanh nghiệp giải thích thế nào? Nếu nói chung chung theo hướng "hệ thống dựa trên nhiều yếu tố..." thì vi phạm quyền được biết của người tiêu dùng. Còn nếu giải thích chi tiết thì lộ bí mật kinh doanh, đồng thời vi phạm Luật Trí tuệ nhân tạo, và còn vô tình tạo cơ hội cho đối thủ cạnh tranh sao chép thuật toán, hoặc kẻ xấu, hacker khai thác lỗ hổng (gaming the system).
Góc nhìn cá nhân: Khi một khách hàng bị từ chối vay, từ chối thẻ tín dụng, hoặc bị đánh giá rủi ro cao bởi hệ thống AI, họ sẽ kích hoạt quyền được giải thích. Và nếu ngân hàng không có một quy chuẩn rõ ràng về thế nào là "lời giải thích phù hợp" thì các vụ tranh chấp dân sự sẽ kéo dài. Về mặt kỹ thuật, tôi đề nghị nên định nghĩa lời giải thích tiêu chuẩn sẽ là "danh sách các tham số đầu vào chính yếu và trọng số tương đối" thay vì phải giải thích toàn bộ kiến trúc mạng neural hoặc các thuật toán tương đương.
Quyền phản đối ra quyết định tự động có thể tạo khe hở
Luật Bảo vệ Dữ liệu cá nhân, tại các Điều 2, 19, 20, định nghĩa "xử lý tự động" là việc dùng máy tính để "đánh giá, phân tích, dự đoán thói quen, sở thích, độ tin cậy" của một cá nhân. Chủ thể dữ liệu có quyền phản đối quyết định tự động và yêu cầu hạn chế xử lý.
Tuy nhiên:
- Khi khách hàng yêu cầu ngân hàng "không được dùng dữ liệu giao dịch của tôi để phân tích bằng AI", hệ thống chấm điểm tín dụng tự động bị vô hiệu hóa cục bộ.
- Khi nhiều khách hàng cùng kích hoạt quyền này, hệ thống phòng chống rửa tiền (AML) và phòng chống gian lận (fraud detection) vốn dĩ hoạt động dựa trên AI để phát hiện hành vi bất thường sẽ ngay lập tức xuất hiện những "điểm mù" (blind spots).
Tội phạm tinh vi có thể lạm dụng quyền pháp lý này để né tránh giám sát. Một đối tượng nghi vấn rửa tiền gửi yêu cầu hạn chế xử lý dữ liệu tự động đến ngân hàng, và về mặt pháp lý ngân hàng sẽ phải tuân thủ.
Luật yêu cầu doanh nghiệp đưa ra "giải thích phù hợp" khi có khiếu nại, nhưng "phù hợp" là một khái niệm chưa được định lượng. Mỗi tòa án, mỗi thẩm phán, mỗi con người, đều có thể hiểu khác nhau.
Góc nhìn cá nhân: chúng ta không phản đối quyền của người dùng bởi vì nó là quyền căn bản trong xã hội số. Nhưng cần có cơ chế ngoại lệ vì lợi ích công cộng rõ ràng. Ví dụ: trong các giao dịch tài chính trên một ngưỡng nhất định, hoặc trong các giao dịch có dấu hiệu bất thường, quyền hạn chế xử lý tự động cần được tạm hoãn đến khi cơ quan chức năng xác minh xong. Nếu không, chúng ta đang vô tình tạo khe hở cho tội phạm.
(Còn tiếp)
Tác giả Trần Hữu Nhân là chuyên gia trong lĩnh vực dữ liệu và trí tuệ nhân tạo. Các quan điểm trong bài là nhận định cá nhân, dựa trên phân tích các văn bản pháp luật hiện hành và kinh nghiệm thực tiễn làm việc với các doanh nghiệp công nghệ tại Việt Nam.
---
Chú thích:
[1] Thế nào là "Sử dụng hợp lý" (Fair use) trong pháp luật sở hữu trí tuệ Việt Nam?, Tạp chí Điện tử Pháp lý, https://phaply.net.vn/the-nao-la-su-dung-hop-ly-fair-use-trong-phap-luat-so-huu-tri-tue-viet-nam-a259681.html