5 mối đe dọa nghiêm trọng quyền riêng tư từ các mô hình ngôn ngữ lớn
Những tính năng mạnh mẽ của các mô hình ngôn ngữ lớn (LLM) như ChatGPT, Claude và Gemini hóa ra lại tiềm ẩn nhiều mối nguy hại đối với quyền riêng tư của con người.

Trong một nghiên cứu tổng quan về hơn 1.300 bài báo hội nghị khoa học máy tính trong thập niên qua bàn về các mối lo ngại quyền riêng tư với các LLM, phó giáo sư khoa học máy tính Tianshi Li ở ĐH Northeastern nhận thấy 92% bài báo tập trung vào các vấn đề ghi nhớ và rò rỉ dữ liệu, đánh giá vô cùng thấp vấn đề gom dữ liệu, suy luận sâu và AI tự chủ (agentic AI).
Ghi nhớ dữ liệu là quá trình một LLM “tiêu hóa” một tệp dữ liệu và mã hóa thông tin đó trong các thuật toán của nó. LLM không ghi nhớ toàn bộ dữ liệu mà nó đọc, đa phần nó chỉ học hỏi rồi loại bỏ. LLM sẽ liên tục quay trở lại dùng dữ liệu đã ghi nhớ cho đến khi nó được tích hợp vào hệ thống.
Tuy nhiên, việc biết LLM đã ghi nhớ thông tin nào là vô cùng khó, và quan trọng là “bạn không biết cách loại bỏ thông tin đó khỏi bộ nhớ của mô hình nếu muốn xóa nó” – PGS. Li chỉ ra.
Ngoài ra, cả người dùng lẫn người không dùng đều sẽ gặp phải ít nhất bốn mối đe dọa quyền riêng tư khác từ LLM, mà những nguy cơ này hiện chưa được nghiên cứu nhiều.
Đầu tiên là sự đồng thuận thiếu hiểu biết trong thỏa thuận người dùng, một điều rất quen thuộc với người thường xuyên dùng internet. Nó bao gồm các các biểu mẫu đồng ý hoặc từ chối phức tạp che giấu thông tin mà trang web thu thập. Mỗi công ty mà các nhà nghiên cứu xem xét đều có những sơ hở đáng kể cho phép họ giữ lại một số cuộc trò chuyện với các LLM của họ, ngay cả sau khi người dùng đã từ chối. Vì có quá nhiều dữ liệu bị giữ lại, nên thật khó để biết chính xác dữ liệu nào bị lưu trữ dài hạn hoặc không. Những mối lo ngại về ghi nhớ dữ liệu và sự đồng thuận thiếu hiểu biết xoay quanh vấn đề rò rỉ: Thông tin mà LLM đã ghi nhớ có thể bị lộ cho người không được xem.
Vấn đề thứ ba chủ yếu nằm ở khả năng tự chủ và độc lập ngày càng tăng mà các LLM sở hữu và tiếp tục đạt được với tốc độ vô cùng nhanh. Ví dụ, một số người dùng hiện đang tích hợp LLM vào tài khoản email để viết phản hồi tự động. Những công cụ này có quyền truy cập vào những thứ như “nguồn dữ liệu độc quyền, hoặc toàn bộ internet mở”, PGS. Li cho biết. Vấn đề là LLM không hiểu hoặc tôn trọng quyền riêng tư. Vì thế, tình trạng thu thập và phát tán dữ liệu cá nhân lên internet, hoặc tình cờ thu thập dữ liệu cá nhân sót lại trên internet, có thể xảy ra trên thực tế.
“Cũng có những trường hợp khác là người dùng ác ý có thể biến những khả năng này của AI tự chủ thành vũ khí, bởi vì chúng có thể truy xuất, phân tích và tổng hợp dữ liệu với tốc độ nhanh hơn nhiều so với con người”, cô cho biết.
Tốc độ này mang lại lợi ích cho cả người dùng thông thường lẫn tin tặc đang cố gắng thu thập thông tin cá nhân về nạn nhân, và vấn đề ở đây là: LLM không cần thông tin cụ thể.
Điều này dẫn đến mối lo ngại thứ tư: suy luận sâu. Vì LLM rất giỏi tổng hợp và phân tích dữ liệu rất nhanh, “ta có thể dùng chúng để suy ra những thuộc tính từ dữ liệu tưởng chừng bình thường, vô hại”, PGS. Li nói. Khi một AI tự chủ nhìn thấy bức ảnh đăng trên mạng, mà người đăng có thể nghĩ rằng nó chẳng chứa thông tin nhận dạng nào, thế nhưng AI có thể suy ra vị trí chính xác. Đột nhiên, một bức ảnh trên mạng xã hội có thể giúp kẻ xấu xác định chính xác bạn ở đâu khi chụp bức ảnh đó.
Mối lo cuối cùng ít được nghiên cứu là tổng hợp thuộc tính trực tiếp, đây có thể là mối nguy hại lớn nhất vì khả năng tiếp cận dễ dàng của nó. Theo bài báo, tổng hợp thuộc tính trực tiếp “phổ biến việc giám sát” một cách triệt để nhờ khả năng thu thập, tổng hợp và phân tích mạnh mẽ “một lượng lớn thông tin trực tuyến”. Ngay cả những người không có kỹ năng lập trình hoặc các khả năng kỹ thuật khác cũng có thể bất ngờ truy xuất thông tin nhạy cảm, tiếp tay cho kẻ xấu mạo danh, theo dõi trên mạng hoặc tung hết thông tin cá nhân của một người lên internet để hãm hại.
Ngày nay, chúng ta không thể tránh khỏi một số mối nguy về quyền riêng tư, và rủi ro này không chỉ giới hạn trong việc trực tiếp dùng LLM. Bất kỳ thông tin nào để lộ trên internet đều có thể dẫn tới vi phạm quyền riêng tư. Và thật không may, điều này còn liên quan đến những thứ chúng ta đã để lộ trong quá khứ. Hy vọng rằng, khi mọi người nhận thức rõ hơn những rủi ro này, họ sẽ cẩn trọng hơn khi chia sẻ trên mạng.□
Phương Anh dịch
Nguồn: https://news.northeastern.edu/2025/11/21/five-ways-llms-expose-your-personal-data/
Bài đăng Tia Sáng số 23/2025
