Những năm gần đây, công nghệ xử lý và nhận dạng giọng nói dùng để giao tiếp, truy cập thông tin và dịch vụ đã cải thiện nhanh chóng về chất lượng. Nó tiện lợi và hấp dẫn vì giọng nói là phương thức giao tiếp chính của con người.
Mặc dù các công nghệ này mang lại nhiều ứng dụng hữu ích, nhưng PGS Tom Bäckström và các cộng sự tại Đại học Aalto (Phần Lan) đã cảnh báo những rủi ro và tác hại tiềm ẩn của chúng trong nghiên cứu được công bố trên tạp chí Proceedings of the IEEE vào tháng 11/2025.
PGS Tom Bäckström: Giọng nói có thể tiết lộ những thông tin mà chúng ta muốn giữ kín. Ảnh: ĐH Aalto
Giọng nói của mỗi người không chỉ là phương tiện giao tiếp mà còn chứa đựng vô số thông tin nhạy cảm về người sở hữu nó. Chúng ta dễ dàng nhận biết bạn bè đang vui hay buồn, tràn đầy năng lượng hay mệt mỏi thông qua giọng nói của họ. Các công cụ trí thông minh nhân tạo (AI) tiên tiến hiện nay cũng có khả năng giải mã những tín hiệu này với tốc độ và độ chính xác đáng kinh ngạc. Trong tương lai, chúng thậm chí có thể trích xuất nhiều thông tin hơn nữa. Đây là điều mà tất cả chúng ta cần quan tâm.
Khi ai đó nói, rất nhiều thông tin về sức khỏe, nền tảng văn hóa, trình độ học vấn... của họ ẩn chứa trong tín hiệu âm thanh. Những thông tin này được truyền tải cùng với lời nói, ngay cả khi họ không nhận ra điều đó," Bäckström nhận định. Chỉ những thay đổi nhỏ trong ngữ điệu hoặc cách lựa chọn từ ngữ cũng có thể tiết lộ quan điểm chính trị của bạn, trong khi những dấu hiệu hơi thở - mạnh hoặc yếu - hoặc chất lượng giọng nói có thể liên quan đến một số tình trạng sức khỏe nhất định.
Công nghệ nhận dạng giọng nói và chuyển từ giọng nói sang văn bản có thể mang lại những lợi ích to lớn trong nhiều trường hợp. Ví dụ, với người khuyết tật vận động (khó sử dụng tay để gõ phím) hoặc người khiếm thị, họ có thể dùng giọng nói để soạn tin nhắn, tìm kiếm thông tin, điều khiển thiết bị hoặc làm việc mà không cần thao tác thủ công. Điều này giúp họ độc lập hơn trong học tập, làm việc và sinh hoạt hằng ngày.
Ngoài ra, công nghệ này còn giúp tự động hóa dịch vụ khách hàng, chẳng hạn tổng đài trả lời tự động, trợ lý ảo, hoặc hệ thống ghi nhận yêu cầu bằng giọng nói, giúp tiết kiệm thời gian và chi phí cho cả doanh nghiệp lẫn người dùng. Tuy nhiên, chính vì công nghệ này thu thập và phân tích giọng nói – một dạng dữ liệu cá nhân rất nhạy cảm – nên khi bị khai thác sai mục đích, nó có thể gây ra rủi ro lớn về quyền riêng tư.
Nếu một công ty nhận ra hoàn cảnh kinh tế hoặc nhu cầu của bạn thông qua giọng nói, họ có thể lợi dụng điều đó để hưởng lợi một cách thiếu đạo đức, ví dụ như tăng giá bán cao hơn bình thường, quảng cáo lợi dụng trạng thái cảm xúc của bạn, hoặc áp dụng mức phí bảo hiểm cao hơn đối với những người được đánh giá là dễ tổn thương hoặc có rủi ro cao.
Sự xuất hiện của AI đã khiến việc sao chép giọng nói trở nên dễ dàng đến mức đáng lo ngại. Chỉ cần một đoạn ghi âm ngắn vài giây được thu thập từ một video trên mạng xã hội hoặc một cuộc gọi rác, các thuật toán AI hiện đại có thể tái tạo hoặc mô phỏng giọng nói của một người một cách hoàn hảo (voice cloning). Kẻ xấu có thể dùng nó để giả danh bạn trong các cuộc gọi khẩn cấp nhằm lừa đảo tiền bạc từ người thân, hoặc thậm chí là vượt qua các lớp bảo mật dựa trên công nghệ xác thực giọng nói.
Do giọng nói ẩn chứa những thông tin như sự tổn thương về cảm xúc, giới tính và các thông tin cá nhân khác, tội phạm mạng hoặc kẻ theo dõi có thể dựa vào đó để nhận diện và lần theo nạn nhân trên nhiều nền tảng khác nhau, khiến họ đối mặt với nguy cơ bị tống tiền hoặc quấy rối.
Điều đáng lo ngại nhất là hầu hết mọi người không nhận thức được đầy đủ mức độ rủi ro khi dữ liệu giọng nói bị thu thập. Mỗi tin nhắn thoại chúng ta để lại, mỗi cuộc gọi dịch vụ khách hàng ghi âm cho mục đích đào tạo và nâng cao chất lượng dịch vụ đều góp phần tạo nên một kho lưu trữ kỹ thuật số ngày càng lớn về đặc điểm giọng nói riêng biệt của mỗi người. Lượng dữ liệu này nhiều không kém các dấu vết kỹ thuật số khác của chúng ta như bài đăng trên mạng xã hội, giao dịch mua sắm hay hoạt động trực tuyến, từ đó hình thành một hồ sơ cá nhân toàn diện có thể bị phân tích bằng những công cụ AI tinh vi.
Mặc dù Bäckström nhận định rằng những cách sử dụng nguy hiểm nhất của công nghệ xử lý và nhận dạng giọng nói chưa phổ biến rộng rãi, nhưng các nhà nghiên cứu vẫn đang nỗ lực phát triển những biện pháp bảo vệ ngay từ bây giờ, trước khi vấn đề trở nên quá nghiêm trọng và khó kiểm soát.
Các giải pháp tiềm năng
Một trong những hướng quan trọng để ngăn chặn các hành vi lạm dụng dữ liệu giọng nói, đó là bảo đảm rằng chỉ những thông tin thực sự cần thiết mới được truyền đi, và những thông tin đó được gửi một cách an toàn đến đúng người nhận. Tức là, thay vì lưu trữ toàn bộ đặc điểm âm thanh của người nói, hệ thống có thể được thiết kế để loại bỏ hoặc hạn chế các yếu tố nhận dạng cá nhân không cần thiết cho chức năng chính của dịch vụ thông qua cơ chế lọc hoặc làm mờ các tín hiệu có thể tiết lộ tình trạng sức khỏe, cảm xúc hay hoàn cảnh cá nhân, từ đó giảm nguy cơ dữ liệu bị phân tích vượt quá mục đích ban đầu.
Để làm được điều này, trước tiên cần đo lường chính xác những thứ mà giọng nói của chúng ta có thể tiết lộ. "Thật khó để xây dựng các công cụ khi bạn không biết mình đang bảo vệ cái gì", Bäckström nói.
Năm 2019, Bäckström và cộng sự đã thành lập Nhóm Quan tâm về An ninh và Quyền riêng tư trong Giao tiếp Giọng nói (Security And Privacy In Speech Communication Interest Group). Đây là một diễn đàn liên ngành, tập trung nghiên cứu và xây dựng các phương pháp đo lường một cách khách quan lượng thông tin chứa trong lời nói. Mục tiêu cuối cùng là tạo ra những hệ thống chỉ truyền đi đúng lượng thông tin thực sự cần thiết cho từng giao dịch. Hãy hình dung một tình huống trong đó lời nói của bạn được chuyển ngay thành văn bản để trích xuất dữ liệu cần thiết, còn bản ghi âm gốc không được lưu trữ hoặc truyền đi – nhờ vậy quyền riêng tư về giọng nói được bảo vệ.
Bên cạnh đó, các chuyên gia cũng đề xuất tăng cường xử lý giọng nói cục bộ trên thiết bị của người dùng (on-device processing), thay vì gửi dữ liệu lên máy chủ đám mây để xử lý. Cách tiếp cận này giúp giảm lượng dữ liệu rời khỏi thiết bị cá nhân, từ đó giảm nguy cơ bị truy cập trái phép hoặc khai thác cho mục đích thương mại không mong muốn.
Theo quan điểm của Bäckström, việc giải quyết các vấn đề về quyền riêng tư của người dùng liên quan đến giọng nói không nhất thiết là gánh nặng, mà thực tế có thể giúp cải thiện chất lượng sản phẩm hoặc dịch vụ. Ví dụ, việc loại bỏ thông tin riêng tư khỏi giọng nói sẽ giúp giảm lượng dữ liệu truyền tải, từ đó giảm lưu lượng mạng và chi phí.
Tuy nhiên, các giải pháp kỹ thuật vẫn chưa đủ khả năng giải quyết hoàn toàn vấn đề. Chúng ta cần có khung pháp lý rõ ràng để quy định cách thức thu thập, sử dụng và lưu trữ dữ liệu giọng nói. Ở đây, các chuẩn mực đạo đức trong phát triển AI đóng vai trò rất quan trọng, vì chúng giúp đặt ra giới hạn rõ ràng về những gì công nghệ được phép làm, từ đó ngăn chặn việc sử dụng bản sao giọng nói cho những mục đích gây hại.
Cuối cùng, nhận thức của người dùng là một phần quan trọng trong việc bảo vệ quyền riêng tư. Khi hiểu rõ giá trị và mức độ nhạy cảm của dữ liệu giọng nói, người dùng có thể thận trọng hơn trong việc chia sẻ và sử dụng các dịch vụ liên quan đến ghi âm.
---
Tài liệu tham khảo:
Your own voice could be your biggest privacy threat. How can we stop AI technologies exploiting it? Live Science. https://www.livescience.com/technology/artificial-intelligence/your-own-voice-could-be-your-biggest-privacy-threat-how-can-we-stop-ai-technologies-exploiting-it
The Unseen Threat: How AI Could Turn Your Voice Against You. Ekhbary. https://ekhbary.com/news/the-unseen-threat-how-ai-could-turn-your-voice-against-you-989-2.html
Your voice gives away valuable personal information - expert raises privacy concerns. Techxplore. https://techxplore.com/news/2026-01-voice-valuable-personal-expert-privacy.html