Tiếp theo kỳ trước, bài viết chỉ ra những vướng mắc của các doanh nghiệp khi thực hiện luật AI, luật dữ liệu, và đề xuất các giải pháp.
5. Dữ liệu cũ, mục đích mới: Vấn đề đặt ra khi "tái sử dụng dữ liệu"
Theo Luật Trí tuệ nhân tạo tại Điều 20, khoản 4 khuyến khích "khai thác, chia sẻ và tái sử dụng dữ liệu trong Cơ sở dữ liệu quốc gia về trí tuệ nhân tạo phục vụ nghiên cứu, huấn luyện, kiểm thử và đổi mới sáng tạo". Đây là tinh thần "data is the new oil", dữ liệu càng được tái sử dụng càng tạo ra giá trị mới.
Nhưng Luật Bảo vệ Dữ liệu cá nhân tại Điều 3 và Điều 9 lại yêu cầu việc xử lý dữ liệu phải đúng "mục đích cụ thể, rõ ràng", và sự đồng ý phải được thể hiện "đối với từng mục đích; không được kèm theo điều kiện bắt buộc phải đồng ý với các mục đích khác".
Lại là một vấn đề logic lớn được thể hiện rõ rệt: khi một doanh nghiệp thu thập dữ liệu tại năm 2026 cho mục đích A (ví dụ: cải thiện trải nghiệm thương mại điện tử), họ không thể biết trước rằng năm 2028 họ sẽ muốn dùng chính dữ liệu đó để huấn luyện một mô hình AI dự đoán xu hướng tiêu dùng (mục đích B). Khi mục đích B xuất hiện, họ buộc phải xin lại sự đồng ý từ hàng triệu chủ thể dữ liệu.
Đây là một việc gần như bất khả thi vì rất nhiều người dùng đã không còn tương tác với nền tảng nữa, đồng thời lại phát sinh rất nhiều chi phí đi kèm bao gồm chi phí tương tác (gửi thư, gọi điện), chi phí nhân công (nhân viên thực hiện thao tác), chi phí lưu trữ và xử lý dữ liệu đối với một ngân hàng cỡ lớn (ví dụ ngân hàng T chẳng hạn, với lượng khách hàng ước tính khoảng 18 triệu khách sẽ mất khoảng 90 tỷ đồng chỉ để "xin lại sự đồng ý" từ chủ thể dữ liệu với tổng chi phí trung bình 5,000 đồng/khách)
Quyền phản đối ra quyết định tự động có thể tạo khe hở. Ảnh: Magnific.
Đây là tình huống mà chuyên gia GDPR gọi là "purpose limitation paradox" (nghịch lý giới hạn mục đích). Bạn càng định nghĩa mục đích chính xác và hẹp, càng khó tận dụng giá trị của dữ liệu. Nhưng nếu định nghĩa rộng quá (ví dụ "dùng cho các mục đích kinh doanh"), thì lại vi phạm tinh thần của luật bảo vệ.
Góc nhìn cá nhân: Trong thực tiễn, tôi tin rằng nhiều doanh nghiệp sẽ bắt đầu chọn cách "chơi chữ" bằng cách soạn các điều khoản đồng ý rất rộng và mập mờ ngay từ đầu. Nhưng cách làm này đã được Cộng đồng chung Châu Âu chứng minh là không hiệu quả: tòa án có thể tuyên các điều khoản đó vô hiệu vì không đáp ứng tiêu chí "rõ ràng và cụ thể". Giải pháp đúng đắn hơn là cơ quan quản lý cần quy định khái niệm "mục đích tương thích" (compatible purpose), cho phép tái sử dụng dữ liệu nếu mục đích mới có liên quan logic với mục đích gốc, và không gây bất lợi cho chủ thể dữ liệu.
6. Khi AI tự "sinh ra" dữ liệu cá nhân
Đây là một vùng xám rất "mới" mà nhiều người, kể cả trong giới luật lẫn công nghệ ít ai nhận ra. Theo Luật Trí tuệ nhân tạo, tại Điều 3 có mô tả AI là hệ thống "suy luận từ dữ liệu đầu vào để tạo ra các đầu ra như dự đoán, nội dung, khuyến nghị". Đồng thời, theo Nghị định 356 tại Điều 10, khoản 2 quy định: "Dữ liệu từ kết quả suy luận của trí tuệ nhân tạo nếu có thể được sử dụng để xác định hoặc giúp xác định một con người cụ thể thì phải được áp dụng các biện pháp bảo vệ dữ liệu cá nhân".
Qua đó, chúng ta hãy xem xét một ví dụ như sau: Một startup phát triển AI phân tích các bài đăng công khai trên mạng xã hội (đã loại bỏ thông tin cá nhân) để dự đoán xu hướng. Đầu vào hoàn toàn ẩn danh. Nhưng AI có thể suy luận ra: "Tài khoản này có khả năng cao thuộc về một phụ nữ 30-35 tuổi sống ở quận Cầu Giấy, làm trong ngành marketing, có con nhỏ". Khi đó, đầu ra của AI bỗng dưng trở thành dữ liệu cá nhân cơ bản kể cả khi nhà phát triển không cố ý.
Vấn đề phát sinh: doanh nghiệp không thể xin sự đồng ý từ trước (vì lúc thu thập đầu vào không phải dữ liệu cá nhân), nhưng ngay khoảnh khắc AI suy luận xong, họ rơi vào trạng thái "xử lý dữ liệu cá nhân không có cơ sở pháp lý" vì... rõ ràng nó không thuộc về bất kỳ một cá nhân cụ thể nào.
Góc nhìn cá nhân: Đây là vùng xám sẽ ngày càng phổ biến khi các mô hình AI tạo sinh (và đặc biệt là các mô hình ngôn ngữ) trở nên mạnh hơn, năng lực suy luận tốt ngoài dự đoán, và đồng thời chi phí sử dụng rẻ hơn. Tôi nghĩ luật cần xác định rõ ràng hơn: trách nhiệm bảo vệ dữ liệu phát sinh tại thời điểm dữ liệu trở thành dữ liệu cá nhân, chứ không phải tại thời điểm thu thập – vì lúc đó doanh nghiệp đã loại bỏ thông tin cá nhân theo luật định rồi; và doanh nghiệp được miễn trách nhiệm trước thời điểm đó, miễn là họ có cơ chế phát hiện và xử lý đúng khi phát sinh (output guardrail - chặn kết quả đầu ra).
7. Cuộc xung đột về vòng đời của dữ liệu
Luật Trí tuệ nhân tạo yêu cầu nhà cung cấp các hệ thống AI rủi ro cao phải "lập, cập nhật và lưu giữ hồ sơ kỹ thuật và nhật ký hoạt động ở mức cần thiết cho việc đánh giá sự phù hợp và kiểm tra sau khi đưa vào sử dụng". Tôi hoàn toàn đồng ý với lý do đằng sau quy định này vì khi xảy ra sự vụ (ví dụ: AI đưa ra quyết định sai dẫn đến thiệt hại), cơ quan chức năng cần truy vết được nguyên nhân. Tuy nhiên, nguyên tắc tối thiểu hóa của Luật BVDLCN (theo NĐ 356) lại yêu cầu: chỉ thu thập, lưu trữ "ở phạm vi cần thiết" và phải xóa khi mục đích đã hoàn thành. Vậy thì mâu thuẫn cụ thể nằm ở đây, để đảm bảo khả năng kiểm toán cho các hoạt động của AI thì doanh nghiệp phải lưu lại các prompts (câu lệnh) mà người dùng đưa vào hệ thống. Mà các prompts này thường chứa thông tin cực kỳ nhạy cảm:
- Người dùng đưa hồ sơ bệnh án vào ChatGPT y tế để hỏi về triệu chứng;
- Doanh nghiệp đưa báo cáo tài chính vào AI phân tích để tìm rủi ro;
- Cá nhân nhập thông tin gia đình, mối quan hệ vào AI tư vấn tâm lý.
Để đảm bảo khả năng kiểm toán cho các hoạt động của AI thì doanh nghiệp phải lưu lại các prompts (câu lệnh) mà người dùng đưa vào hệ thống, nhưng các prompts này thường chứa thông tin cực kỳ nhạy cảm. Ảnh: Magnific.
Nếu lưu nhật ký đầy đủ thì sẽ vi phạm tối thiểu hóa. Còn nếu không lưu thì sẽ vi phạm yêu cầu giám sát AI rủi ro cao. Vậy thì các startups xây dựng ứng dụng AI nên làm thế nào cho thỏa đáng?
Thêm vào đó, theo Luật Trí tuệ nhân tạo tại Điều 23 còn yêu cầu gắn nhãn (watermark) nội dung do AI tạo ra để chống deepfake, lừa đảo. Để gắn nhãn và truy vết được nguồn gốc, doanh nghiệp phải lưu một lượng metadata lớn về người dùng, và điều này đi ngược lại nguyên tắc hạn chế thu thập của Luật DLCN.
Góc nhìn cá nhân: Doanh nghiệp giờ phải đóng đồng thời hai vai trò mâu thuẫn: vừa là giám sát viên (giám sát người dùng để chống lừa đảo), vừa là luật sư bào chữa (bảo vệ tuyệt đối quyền riêng tư của người dùng). Đây là một nhiệm vụ bất khả thi. Theo tôi, giải pháp kỹ thuật có thể "mượn" từ các nước phương tây như sau: bắt buộc mọi nhật ký AI rủi ro cao phải được mã hóa end-to-end và chỉ giải mã khi có lệnh yêu cầu từ tòa án. Điều này sẽ cân bằng được cả hai mục tiêu. Tuy nhiên vẫn cần có hướng dẫn đầy đủ các trường hợp nào thì tòa án được phép yêu cầu truy xuất thông tin nhằm giảm thiểu rủi ro lạm dụng quyền kiểm toán.
8. Trách nhiệm pháp lý khi AI tự đưa ra quyết định
Cũng theo Luật Trí tuệ nhân tạo tại Điều 3 mô tả hệ thống AI "có khả năng tự thích nghi sau khi được triển khai", và Điều 29, khoản 3 cho phép miễn trừ bồi thường nếu thiệt hại xảy ra trong trường hợp "bất khả kháng hoặc tình thế cấp thiết". Nhưng Luật BVDLCN tại Điều 23 yêu cầu thông báo vi phạm trong 72 giờ. Và Điều 37 quy định bên kiểm soát dữ liệu phải "chịu trách nhiệm cao nhất" về thiệt hại.
Trên thực tế, bên kiểm soát dữ liệu là một khái niệm rộng, bao gồm tới bốn đối tượng khác nhau: (a) nhà phát triển mô hình nền tảng, (b) bên fine-tune mô hình, (c) bên triển khai, và (d) người dùng cuối.
Như vậy thì... nếu một mô hình AI sau khi triển khai, qua quá trình tự học (fine-tuning từ tương tác người dùng), đã "vô tình" học được cách tạo ra các đầu ra làm rò rỉ thông tin cá nhân ngoài dự kiến của nhà phát triển thì chúng ta sẽ "phạt" ai? Và đây là kịch bản thực tế đã từng xảy ra với một số mô hình LLM lớn trên thế giới.
Câu hỏi pháp lý: Đây là trường hợp "bất khả kháng" được miễn trừ theo Luật Trí tuệ nhân tạo, hay là vi phạm bảo mật bị xử phạt theo Luật BVDLCN?
Hai luật này dường như không "nói chuyện" được với nhau. Luật Trí tuệ nhân tạo thì nhìn AI như một "tác nhân tự chủ" có thể có hành vi ngoài ý muốn của con người. Trong khi đó, luật BVDLCN nhìn AI như một "công cụ" và xem mọi hành vi đều quy về trách nhiệm của doanh nghiệp.
Góc nhìn cá nhân: Tôi nghĩ chúng ta cần một khái niệm pháp lý mới tạm gọi là "trách nhiệm phân chia theo chuỗi giá trị AI". Tức là phân chia rõ ràng trách nhiệm giữa: (a) nhà phát triển mô hình nền tảng, (b) bên fine-tune mô hình, (c) bên triển khai, và (d) người dùng cuối. Mỗi bên chịu trách nhiệm với phần mình kiểm soát được. Nếu vẫn áp dụng nguyên tắc "ai đứng tên kiểm soát dữ liệu thì người đó chịu trách nhiệm hết" thì chắc hẳn các doanh nghiệp triển khai sẽ không dám dùng mô hình AI do đơn vị khác phát triển. Điều 37 chưa quy định rõ vai trò của từng bên a, b, c, d.
9. Khử nhận dạng: Bao giờ thì gọi là "đã xóa xong dữ liệu"?
Điểm cuối cùng của bài viết này nhìn chung có vẻ hơi mang tính kỹ thuật, nhưng lại có ý nghĩa thực tiễn rất lớn. Luật BVDLCN tại Điều 14 yêu cầu về xóa, hủy, khử nhận dạng dữ liệu cá nhân "không được tái nhận dạng dữ liệu sau khi đã khử nhận dạng".
Với người làm kỹ thuật chúng tôi, khử nhận dạng dữ liệu đã là "xóa" rồi. Tuy nhiên, luật và nghị định chưa quy định cụ thể việc này, nên khi một công dân yêu cầu doanh nghiệp xóa dữ liệu của mình, doanh nghiệp sẽ không thể chắc chắn việc khử nhận dạng có được tính là "đã xóa" không?
Luật BVDLCN tại Điều 14 yêu cầu về xóa, hủy, khử nhận dạng dữ liệu cá nhân "không được tái nhận dạng dữ liệu sau khi đã khử nhận dạng". Ảnh: Magnific.
Nếu CÓ: doanh nghiệp có một con đường thoát hiểm hợp lý. Họ áp dụng các kỹ thuật như differential privacy, k-anonymity, output filters... để mô hình AI không thể phát sinh lại dữ liệu của cá nhân đó. Mô hình vẫn được giữ nguyên, không cần retrain.
Nếu KHÔNG: doanh nghiệp buộc phải retrain lại từ đầu, với chi phí khổng lồ và thời gian không khả thi trong 20 ngày luật quy định.
Góc nhìn cá nhân: Đây là vùng xám "kỹ thuật" nhất nhưng cũng là vùng xám có thể giải quyết được dễ nhất bằng cách ban hành thêm một thông tư hướng dẫn của cơ quan quản lý. Kinh nghiệm quốc tế (ISO/IEC 27559, NIST Privacy Framework) đã có sẵn các tiêu chuẩn để xác định khi nào dữ liệu được coi là "đủ ẩn danh". Tôi nghĩ Việt Nam chỉ cần lựa chọn một tiêu chuẩn phù hợp và ban hành. Và điều này cần được hành động sớm vì nếu để lâu mỗi doanh nghiệp sẽ tự diễn giải và "hiểu" luật khác nhau. Điều này sẽ dẫn đến tình trạng cùng một hành vi mà bên này được khen tuân thủ còn bên kia bị xử phạt, tạo ra bất công và rủi ro pháp lý không cần thiết.
Bức tranh lớn: Doanh nghiệp công nghệ Việt Nam đứng ở đâu?
Đối với các tập đoàn công nghệ lớn, dù trong nước hay nước ngoài, các xung đột này không phải là đe dọa sinh tồn. Các doanh nghiệp này có sẵn một đội ngũ pháp chế hùng hậu, có ngân sách dành riêng cho các hoạt động tuân thủ, kiểm soát rủi ro, có hạ tầng kỹ thuật để triển khai các giải pháp DPIA tự động, machine unlearning, output filtering... Chi phí tuân thủ với họ cũng đáng kể nhưng không gây nên sự phá sản.
Đối với các công ty vừa và lớn trong các ngành mang tính chất phải xử lý dữ liệu khổng lồ như ngân hàng, viễn thông, bảo hiểm, thương mại điện tử thì bài toán sẽ phức tạp hơn. Họ có nguồn lực, nhưng không có "DNA công nghệ" sâu như các tập đoàn công nghệ lớn. Các công ty này phải vừa duy trì hoạt động kinh doanh, vừa liên tục tái cơ cấu kiến trúc dữ liệu để đảm bảo tuân thủ. Chi phí ước tính có thể lên đến vài triệu USD cho mỗi tổ chức lớn. Đây sẽ là phân khúc mà các công ty tư vấn (Big 4, các công ty luật quốc tế) hưởng lợi nhiều nhất.
Đối với các startup AI nội địa made-in-Vietnam thì đây lại là một thử thách mang tính sinh tử. Vì ngân sách của nhóm này rất hạn chế, đội ngũ thường dưới 50 nhân sự, và thường không có luật sư riêng, phải chọn một trong ba con đường:
- Cố gắng tuân thủ tuyệt đối bằng cách dồn 30-50% nguồn lực vào việc đảm bảo tuân thủ, kéo theo chậm tốc độ phát triển sản phẩm. Khả năng cao sẽ rơi vào tình trạng trì trệ và bị các đối thủ nước ngoài bỏ xa.
- Chấp nhận sống trong vùng xám và vận hành như cũ, "tai không nghe mắt không thấy", họ đặt cược rằng cơ quan quản lý sẽ ưu tiên xử lý các vi phạm lớn trước. Đây là cách rủi ro nhất nhưng cũng là cách mà nhiều startup buộc phải chọn.
- Chuyển pháp nhân ra nước ngoài (Singapore, Hong Kong, Mỹ) cũng là một lựa chọn được yêu thích trong những năm gần đây. Họ đặt pháp nhân và máy chủ ở nơi pháp lý thoáng hơn, song... sản phẩm vẫn phục vụ thị trường Việt Nam. Tuy nhiên cách này có thể xung đột với quy định ngoài lãnh thổ của Luật Bảo vệ dữ liệu cá nhân (nhưng... vẫn có cách để giảm nhẹ quy định này).
Đối với các nhà nghiên cứu AI độc lập và trong viện, trường, ranh giới giữa "nghiên cứu khoa học" và "vi phạm" trở nên mong manh. Chẳng hạn, một dự án thu thập dữ liệu để xây dựng kho ngữ liệu tiếng dân tộc thiểu số - một hoạt động được Luật AI khuyến khích - vẫn có thể bị quy kết vi phạm Luật BVDLCN.
Góc nhìn cá nhân tổng kết: Tôi không bi quan về tương lai vì luật có quy trình tu chính để sửa đổi. Việc Việt Nam có cùng lúc hai đạo luật quan trọng này là một bước tiến lớn. Nhưng tôi cũng nhận định rằng giai đoạn 2026-2027 sẽ là giai đoạn khó khăn cho hệ sinh thái công nghệ Việt Nam. Nếu cơ quan quản lý lắng nghe và phản ứng nhanh bằng các hướng dẫn, các TCVN kỹ thuật, thì sau các thảo luận về vấn đề này, chúng ta sẽ có một khung pháp lý thực sự đủ dày dặn cho kỷ nguyên AI.
Đối với các startup AI nội địa made-in-Vietnam thì hai luật mới là một thử thách mang tính sinh tử. Ảnh: Magnific.
Thay lời kết
Hai đạo luật mà chúng ta vừa phân tích đều có lý lẽ riêng, đều bảo vệ những giá trị quan trọng. Luật BVDLCN bảo vệ một quyền rất quan trọng trong Hiến Pháp - quyền riêng tư của 100 triệu công dân. Luật Trí tuệ nhân tạo mở đường cho một động lực kinh tế có thể đóng góp 120-130 tỷ USD vào GDP đến năm 2040. Song, vấn đề không phải là chọn bên này hay bên kia. Vấn đề là chúng ta cần những công cụ kỹ thuật-pháp lý đủ tinh tế để hai đạo luật này có thể vận hành cùng nhau mà không "khóa cứng" nhau.
Cụ thể, tôi kiến nghị bốn việc cần làm ngay trong 12 tháng tới:
Thứ nhất là ban hành Tiêu chuẩn Kỹ thuật Quốc gia (TCVN) về Machine Unlearning và Anonymization để làm rõ các phương pháp được công nhận là tương đương với "xóa dữ liệu". Việc này nằm trong tầm tay Bộ Khoa học & Công nghệ phối hợp với Bộ Công an.
Thứ hai là ban hành thông tư tạo vùng đệm an toàn cho Sandbox AI nhằm đảm bảo doanh nghiệp tham gia thử nghiệm được miễn trừ một cách thực chất các nghĩa vụ tuân thủ Luật DLCN, miễn là đáp ứng các điều kiện kỹ thuật về bảo mật.
Thứ ba là chuẩn hóa khái niệm "giải thích phù hợp" trong xử lý tự động AI, định nghĩa rõ ràng đâu là tiêu chuẩn tối thiểu mà doanh nghiệp phải đáp ứng, đâu là vùng được bảo vệ bởi bí mật kinh doanh.
Thứ tư - và cũng là góp ý cá nhân cuối trong bài viết - luật hóa ngoại lệ "lợi ích hợp pháp" cho khai thác dữ liệu công khai phục vụ huấn luyện AI, kèm theo các điều kiện chặt chẽ về việc không lạm dụng (như cấm profiling, cấm phân biệt đối xử). Đây là cách Cộng đồng chung Châu Âu đã làm với GDPR và đã chứng minh tính hiệu quả thực tiễn.
Một đất nước muốn vươn lên trong cuộc đua AI toàn cầu cần cả hai thứ: quyền riêng tư được bảo vệ và môi trường đổi mới sáng tạo được tự do. Việt Nam đã có hai đạo luật. Bây giờ là lúc xây cây cầu nối giữa chúng.
Mong rằng bài viết này góp được một viên gạch nhỏ vào cuộc đối thoại đó.
Tác giả Trần Hữu Nhân là chuyên gia trong lĩnh vực dữ liệu và trí tuệ nhân tạo. Các quan điểm trong bài là nhận định cá nhân, dựa trên phân tích các văn bản pháp luật hiện hành và kinh nghiệm thực tiễn làm việc với các doanh nghiệp công nghệ tại Việt Nam.