Cơ chế thao túng của thuật toán trên mạng xã hội

Chúng ta có cách nào giữ được quyền riêng tư, dữ liệu của mình cũng như hạn chế những mặt hại của mạng xã hội? Đó là nội dung buổi tọa đàm “Thuật toán thao túng chúng ta như thế nào?” do Tia sáng tổ chức ngày 22/4, với sự tham dự của các kỹ sư, chuyên gia về khoa học dữ liệu và học máy.

Cuộc sống của chúng ta đang dần được chuyển lên mạng. Với 7 tiếng sử dụng Internet mỗi ngày, nhiều hoạt động giải trí, kết nối xã hội, mua sắm trước đây chỉ được thực hiện trong đời thực (offline) nay đã chuyển sang trực tuyến (online).

Trong thời đại dữ liệu là một loại dầu mỏ mới thì các hoạt động online mang lại nguồn tài nguyên vô tận cho các công ty công nghệ dõi theo từng đường đi nước bước của người dùng. Các công ty công nghệ có thể vẽ được chân dung chi tiết về mỗi cá nhân: thích nghe gì, xem gì, có cảm xúc như thế nào khi đọc từng loại tin tức, từ đó gợi ý cho chúng ta xem những nội dung tương tự luân phiên nhau.

Và đằng sau những gợi ý đó chính là các thuật toán với cơ chế "thao túng" cảm xúc và hành vi người dùng.

Cơ chế thao túng của thuật toán trên mạng xã hội — *Từ trái qua phải, diễn giả Đặng Văn Quân, Trần Hữu Nhân và Vũ Xuân Sơn trong buổi tọa đàm ngày 22/4. Ảnh: Anh Thư*

MC: Trong lịch sử loài người, chưa bao giờ chúng ta trao quyền cho một công cụ đặc biệt như AI. Khác với các công cụ thông thường cần người điều khiển, AI có thể quyết định luồng thông tin nào mà con người đón nhận trước khi chúng ta biết đến chúng. Vậy dựa vào đâu mà các thuật toán biết được chúng ta muốn gì?

Đặng Văn Quân (Yokogawa, Singapore): Mạng xã hội là một nơi rất dễ dàng để thu thập thông tin. Ban đầu khi đăng ký tài khoản, chúng ta đã chủ động cung cấp cho các nền tảng những thông tin cá nhân về nhân khẩu học (như giới tính, chủng tộc, tuổi tác, ngôn ngữ, vị trí địa lý) và các chủ đề quan tâm.

Trong suốt quá trình sử dụng mạng xã hội, chúng ta cũng tạo ra dữ liệu cho các nền tảng hiểu mình hơn – chẳng hạn như đăng bài (nội dung, hình ảnh, video, hashtag, thời gian đăng, khoe với bạn bè rằng bạn đang ở đâu, đang làm gì...) hoặc tương tác với bài đăng của người khác (ấn thích, xem, chia sẻ, click, bình luận, tham gia nhóm, thậm chí là số giây lướt qua mỗi bài...).

Bên cạnh đó, khi cài đặt ứng dụng, chúng ta cũng đã cấp quyền để các nền tảng này liên tục truy cập và thu thập thông tin từ thiết bị lên mạng, ví dụ như bộ nhớ, thư viện ảnh, danh bạ điện thoại, wi-fi, ...

Tất cả những dữ liệu cá nhân này sẽ được mã hóa thành một vector dữ liệu mà máy có thể hiểu được. Các vector liên tục được tính toán lại hằng ngày, hằng giờ do thói quen, sở thích người dùng có thể thay đổi. Các bài đăng cũng sẽ được mã hóa thành các vector. Một mô hình học máy sẽ so sánh các vector chứa thông tin người dùng với các vector chứa thông tin bài đăng để dự đoán ra bài đăng nào có thể được người dùng quan tâm trong ngắn hạn hoặc dài hạn. Dữ liệu càng chi tiết thì việc dự đoán càng chính xác.

Thực tế, các nền tảng như Facebook, Instagram, TikTok hay Youtube đều có những mô hình gợi ý hoặc xếp hạng bài đăng khác nhau để quyết định xem thông tin nào cuối cùng sẽ đến tay người dùng.

Việc bị thu thập và sử dụng dữ liệu cá nhân như thế vừa có mặt lợi vừa có mặt hại. Mặt lợi là người dùng sẽ cảm thấy thoải mái, vui vẻ khi được gợi ý những bài đăng mà mình yêu thích và kết bạn với những người mới cùng sở thích. Người dùng cũng được hiển thị những quảng cáo sản phẩm có khả năng yêu thích, khiến cho họ không phải đau đầu khi chọn mua các sản phẩm phù hợp.

Nhưng nguy cơ là người dùng dễ bị nghiện và dành quá nhiều thời gian cho mạng xã hội. Vì việc mua sắm quá dễ dàng – nhiều quảng cáo gợi ý có sẵn nút "mua ngay" để đặt mua và thanh toán trong vài bước – nên một số dễ sa vào mua sắm không kiểm soát.

Các bộ lọc thông tin trên mạng xã hội hiện cũng chưa thực sự tốt, làm người dùng dễ bị thay đổi theo chiều hướng xấu khi tiếp xúc với những nội dung độc hại. Gần đây, TikTok đang bị lên án ở một số nước châu Âu và Bắc Mỹ vì quá thả lỏng việc kiểm soát nội dung để thu hút người dùng, ngay cả khi điều này đặt những đứa trẻ vào rủi ro nhìn nhận sai lệch về cơ thể, hành vi và sức khỏe tinh thần.

Cuối cùng, mạng xã hội cũng kèm theo nguy cơ gian lận và lừa đảo vì rò rỉ dữ liệu. Vụ bê bối dữ liệu Facebook–Cambridge Analytica năm 2018 là một lời cảnh tỉnh cho việc dữ liệu cá nhân bị lợi dụng vào những mục đích phi đạo đức. Với sự phát triển của công nghệ AI ngày nay, chúng ta có thể bị rò rỉ dữ liệu theo những cách không ngờ đến, chẳng hạn như công nghệ nhận dạng hình ảnh OCR có thể dễ dàng đọc được thông tin trên tấm vé máy bay, thẻ tín dụng hoặc chứng minh thư nhân dân dù chỉ vô tình xuất hiện mờ mờ trong khung ảnh.

MC: Vậy cần làm gì để đảm bảo an toàn khi tham gia mạng xã hội và hạn chế thấp nhất sự "thao túng" của thuật toán?

Trần Hữu Nhân (One Mount, Việt Nam): Thực ra, việc thu thập thông tin để gợi ý không phải là điều mới lạ. Trước đây, khi ta đến cửa hàng mua quần áo, cô bán hàng cũng quan sát chúng ta và hỏi một số thông tin cá nhân để đưa ra những món hàng phù hợp. Đó là những hệ thống gợi ý "chạy bằng cơm". Các hệ thống thuật toán gợi ý trên mạng xã hội cũng tương tự, nhưng chúng được tự động hóa và mạnh mẽ hơn, có thể chạy với hàng triệu người cùng lúc chỉ trong một vài giây.

Tuy nhiên, vấn đề ở đây là "Khi lấy được thông tin thì người sở hữu những thông tin đó là ai? Là cá nhân người dùng hay các doanh nghiệp sở hữu nền tảng?" Điều 21 của Hiến pháp năm 2013 đã ghi nhận quyền riêng tư của cá nhân. Nghị định mới nhất về bảo vệ dữ liệu cá nhân cho thấy thông tin cá nhân của chúng ta là của chúng ta. Nhìn từ góc độ luật pháp, nếu một doanh nghiệp hoặc tổ chức lấy dữ liệu cá nhân để phục vụ cho việc kinh doanh hoặc vận hành bộ máy của họ mà không được sự đồng ý rõ ràng của người dùng nghĩa là người dùng đang là nạn nhân.

Nhưng mọi chuyện phức tạp hơn vậy. Người dùng được lợi từ các thuật toán gợi ý trên mạng xã hội. Chúng ta có xu hướng mong muốn những "người bán hàng" của mình hiểu mình và biết mình thích gì nhất để đưa ra gợi ý phù hợp. Chúng ta muốn cho phép các nền tảng xử lý dữ liệu của mình khi chúng đem đến lợi ích cho bản thân.

Trên thực tế, người dùng có thể đã cho doanh nghiệp sử dụng thông tin cá nhân mà không hề hay biết. Chẳng hạn khi đăng ký tài khoản Facebook, mọi người có thói quen kéo chuột đến ấn nút "I agree" ở cuối trang mà không đọc kỹ thỏa thuận người dùng - có thể dài tới hàng chục trang hoặc dẫn link đến một website khác. Chính vì thế, chúng ta không thực sự biết mình đã cho phép các nền tảng dùng thông tin gì, vào lúc nào, cho mục tiêu gì.

Các mạng xã hội là miễn phí và đem lại sự kết nối tiện nghi cho mọi người. Nhưng để vận hành một mạng xã hội cần rất nhiều hệ thống, con người, kỹ sư và tiền bạc ở bên dưới. Các "ông lớn" đứng sau mạng xã hội là doanh nghiệp, họ cần lợi nhuận. Họ phải sử dụng dữ liệu người dùng để bán quảng cáo, hướng người mua tới những bên thứ ba cung cấp sản phẩm, hoặc triển khai nhiều mô hình kinh doanh khác.

Do vậy, điều quan trọng nhất với mỗi cá nhân là hãy tự bảo vệ dữ liệu của mình. Học được cách phân loại những thông tin nào có thể chia sẻ lên mạng xã hội và những thông tin nào không, biết được cách trao quyền hoặc rút lại các quyền về dữ liệu khi cần thiết.

MC: Liệu có giải pháp kỹ thuật nào để chống lại sự thao túng của thuật toán?

Đặng Văn Quân (Yokogawa, Singapore): Có một số giải pháp giúp tạm thời nhận ra tác động "thao túng" của một thuật toán, ví dụ như dùng tiện ích để ngăn mình lên mạng xã hội quá nhiều, hoặc dùng công nghệ ngăn phát hiện khuôn mặt để tránh lộ mặt. Công nghệ có đặc điểm là nếu có một thứ tồn tại thì chẳng mấy chốc sẽ có người muốn tìm một thứ khác để chống lại nó. Thường thì những người tạo ra thuật toán "khóa" cũng là người có thể tạo ra thuật toán "bẻ khóa" và ngược lại, vì họ hiểu được điểm yếu của thuật toán.

Tuy nhiên sẽ tốn rất nhiều chi phí để làm một thuật toán như vậy. Khi ta dùng toàn bộ nguồn lực để xây dựng một thứ thì ta sẽ cần một nguồn lực tương tự để xây dựng thứ chống lại nó. Do vậy đây không phải là cách khả thi để chống lại sự thao túng.

Trần Hữu Nhân (One Mount, Việt Nam): Nếu có một công ty hàng trăm ngàn người, liệu ta có sẵn sàng giao quyền kiểm soát công ty đó cho một cỗ máy? Vậy tại sao ta có thể giao dữ liệu của mình, cuộc sống của mình cho một AI để nó kiểm duyệt một AI khác? Tôi nghĩ dù công nghệ có phát triển đến mấy, chúng ta vẫn cần có con người ở đó để kiểm soát. Và nếu con người chúng ta chưa đủ khả năng thì vẫn có thể dùng các quy định pháp luật để kiểm soát dữ liệu và công nghệ.

Vũ Xuân Sơn (Đại học Umeå, Thụy Điển): Thực tế, dữ liệu được sinh ra bởi con người, và các mạng xã hội chỉ tăng tính tương tác giữa con người với con người bằng cách chia sẻ các nội dung. Thuật toán nằm ở giữa để thức đẩy quá trình này. Nếu bây giờ, chúng ta tạo ra nhiều nội dung xấu hoặc xem nhiều nội dung xấu thì hệ thống ở giữa sẽ làm nhiệm vụ duy nhất là phân phát nội dung.

Nhưng nếu chúng ta tạo được một môi trường Internet an toàn hơn - nơi mọi người tuân thủ các quy định về nội dung và kiểm soát dữ liệu, vạch rõ rằng họ đang chia sẻ dữ liệu với ai, ai là người đang dùng dữ liệu, và những dữ liệu này được dùng để làm gì - thì khi có bất kỳ vấn đề gì xảy ra liên quan đến sử dụng dữ liệu trái phép hoặc sử dụng dữ liệu sai mục đích thì chúng ta hoàn toàn có thể truy vết lại.

MC: Trong cuộc giằng co bảo vệ dữ liệu giữa cá nhân và doanh nghiệp, liệu có nên có một hệ thống với thẩm quyền lớn hơn để chịu trách nhiệm kiểm soát và bảo vệ dữ liệu cho chúng ta?

Trần Hữu Nhân (One Mount, Việt Nam): Khoảng 2019, chúng ta đã bắt đầu cho việc quản lý mọi thứ thông qua căn cước công dân. Đó là một cách tiếp cận giúp chúng ta đỡ mất công đi ký hoặc mang theo nhiều giấy tờ phức tạp khi giao dịch.

Nhưng vấn đề của một hệ thống nắm giữ toàn bộ dữ liệu như vậy là chúng rất phức tạp: Ai sẽ là người (hoặc tổ chức) đại diện để kiểm soát dữ liệu đó? Có những phương pháp gì để quản lý và giám sát người đại diện này? Và hành lang pháp lý nào để đảm bảo hệ thống này vận hành mà không gây nguy hại cho cá nhân? Nếu trả lời thỏa đáng được những câu hỏi đó thì ta mới bắt đầu xem xét đến việc các hệ thống đó có thể đem lại hiệu quả đến đâu.

Ở phương Tây, khi xuất hiện công nghệ mới thì luật pháp quản lý cũng sẽ xuất hiện ngay sát sườn, dù với tốc độ chậm hơn một chút. Ở Việt Nam, điều này khó khăn hơn do luật pháp và việc áp dụng luật của chúng ta đi chậm hơn đáng kể so với mức học hỏi công nghệ. Do vậy, chúng ta có thể chờ các nước phương Tây đi trước rồi học theo.

Vũ Xuân Sơn (Đại học Umeå, Thụy Điển): Thế giới đang hình thành một số tiêu chuẩn chung liên quan đến bảo vệ dữ liệu cá nhân ra đời năm 2016, trong đó có Quy định về bảo vệ dữ liệu chung châu Âu (GDPR). Hiện tại tất cả các công ty công nghệ lớn nhỏ ở châu Âu đều phải tuân thủ luật này nếu muốn hoạt động. Việt Nam chúng ta cũng đang phát triển theo hướng đó và có những chuyển động rất nhanh trong việc ban hành quy định mới.

Khi GDPR ra đời năm 2016 thì phía Châu Âu cũng gặp rất nhiều vấn đề - từ việc làm sao để phân biệt được đâu là một khái niệm được áp dụng, ai là người được sử dụng dữ liệu cá nhân, ai là người được phép thu thập dữ liệu ở những địa điểm nào... Việc áp dụng luật mất rất nhiều thời gian. Tất cả các công ty công nghệ và kinh doanh trên Internet đều phải đọc luật để nghiên cứu cách làm. Ngay cả luật sư và người tiêu dùng cũng không hiểu được ngay đâu là dữ liệu của tôi và đâu là dữ liệu mà tôi được quyền chia sẻ.

Từ đó đến nay, tất cả các bên tham gia đều phải chung tay nỗ lực rất nhiều để hiểu và thay đổi theo luật. Chẳng hạn như thay vì đưa ra một bản điều khoản dài như trước, các website của châu Âu phải thiết kế những nút thông báo pop up đơn giản, giúp người dùng chỉ mất nửa giây để hiểu rõ họ có đang đồng ý trao quyền dữ liệu cho website đó hay không. Tôi nghĩ Việt Nam cũng sẽ sớm phải làm như vậy./

Trở lại Diễn đànTrở lại Diễn đàn