Quản lý việc thu thập dữ liệu để có AI an toàn
Việc ứng xử với dữ liệu để có trí tuệ nhân tạo an toàn ở Canada cũng là một gợi ý với nhiều quốc gia khác trong phát triển các nguồn tài nguyên tính toán, cơ sở quan trọng của nền kinh tế dữ liệu.

Thủ tướng Canada Justin Trudeau tuyên bố vào tháng 4/2024 rằng Canada sẽ đầu tư 2,4 tỷ CAD vào lĩnh vực trí tuệ nhân tạo (AI). Một phần ngân sách này sẽ được dùng để thiết lập Viện An toàn AI. Vậy an toàn AI là như thế nào?
Nhiều nước trên thế giới trong đó có Canada, Mỹ và các nước trong Liên hiệp châu Âu (EU) đã có những hành động để tích cực ngăn chặn tác hại của AI. Hầu hết những nỗ lực này tập trung vào việc triển khai và tác động của AI.
Do khả năng thâm nhập rộng khắp và mức độ đa dạng của AI, chính quyền nên tiếp cận vấn đề an toàn bằng cách phân chia AI thành từng thành phần như thuật toán, dữ liệu, và các nguồn tài nguyên điện toán (“computing”). Đổi mới sáng tạo trong điện toán và thuật toán diễn ra ở tốc độ rất nhanh, còn tốc độ đổi mới quản trị thì không thể đuổi kịp. Do đó, chính quyền cần tập trung vào những thế mạnh hiện có của mình trong lĩnh vực dữ liệu để có làm cho AI trở nên an toàn.
Thu thập dữ liệu
Chính quyền chính là chuyên gia trong thu thập dữ liệu. Chính quyền có hẳn những cơ quan được lập ra chỉ để thu thập dữ liệu về tất cả mọi thứ từ thể trạng doanh nghiệp, sức khỏe công dân, cho tới lưu lượng giao thông. Trong việc thu thập dữ liệu (dù là điện tử hay phi điện tử), một phần quan trọng là phải ra quyết định chính xác về việc thu thập dữ liệu nào và tổ chức dữ liệu ra sao để có được không tin hữu ích và khả dụng. Những quyết định này khiến một số nhóm dữ liệu được coi là “thật” còn một số nhóm khác thì bị bỏ qua.
Trong việc thu thập dữ liệu (dù là điện tử hay phi điện tử), một phần quan trọng là phải ra quyết định chính xác về việc thu thập dữ liệu nào và tổ chức dữ liệu ra sao để có được không tin hữu ích và khả dụng.
Một ví dụ về dữ liệu phi điện tử gần đây là việc chính quyền Mỹ quyết định thay đổi hệ thống phân loại thành phần sắc tộc để nhận diện một số nhóm sắc tộc mới trong điều tra dân số. Những nhóm mới này sẽ ảnh hưởng cách tính dữ liệu trong các thành phần khác rồi từ đó tác động đến các hoạt động chức năng của chính quyền, chẳng hạn như cách phân bố các chương trình công và cách phân chia các đơn vị bầu cử.
Chính quyền cũng có đủ các kỹ năng quản lý việc tiếp cận dữ liệu. Ở Canada và Mỹ, các cơ quan dữ liệu nghiên cứu chỉ cho phép trung tâm dữ liệu của một số trường đại học được quyền tiếp cận các câu trả lời cá nhân trong các cuộc điều tra dân số cũng như một số loại dữ liệu đặc biệt khác. Chính quyền đặt ra những giới hạn đối với các dữ liệu nhạy cảm này để bảo vệ cá nhân.
Đồng thời, chúng ta cũng thường cho rằng càng nhiều dữ liệu thì xã hội sẽ càng được cải thiện, đặc biệt là trong những nơi có thiết chế dân chủ. Tổ chức hợp tác và Phát triển kinh tế (OECD) đưa ra thông tin về khả năng tiếp cận dữ liệu từ chính quyền và ủng hộ khái niệm “chính quyền mở” (“open government”). Đạo luật dữ liệu của EU cũng đẩy mạnh việc chia sẻ dữ liệu giữa các thể chế tư và công để thúc đẩy một “nền kinh tế dữ liệu” (“data economy”).
Tuy nhiên, dữ liệu hay hầu như bất cứ thứ gì cũng không phải là điều tốt lành vô hạn cho dù dữ liệu đóng vai trò quan trọng trong việc làm cho AI trở nên an toàn. Bằng cách hiểu được những tính chất thiên lệch trong dữ liệu, chúng ta có thể dự đoán được những vấn đề có thể xuất hiện trong kết quả của các hệ thống AI.
Vậy tại sao chúng ta không bắt đầu suy nghĩ về việc loại dữ liệu nào chịu mức rủi ro quá cao tới mức ta không thể để cho các công ty tư nhân thu thập và phân tích? Tại sao chúng ta không cân nhắc tới phẩm giá hay quyền tự chủ của con người khi ra quyết định nên hay không nên cho phép một số loại dữ liệu được phép tồn tại?
Điều tiết dữ liệu
Chính quyền thường tập trung vào điều chỉnh các ứng dụng và việc dùng AI chẳng hạn như Luật AI của EU và Luật AI & dữ liệu của Canada. Tại Mỹ, một sắc lệnh hành chính được ban hành tháng 10/2023 với mục tiêu AI “an toàn, an ninh, và tin cậy”. Một điều quan trọng là sắc lệnh này ghi nhận dữ liệu là một phần của các hệ thống AI và đưa ra những khuôn khổ cơ bản để ngăn chặn những mối nguy hại tiềm tàng. Tuy vậy, sắc lệnh này chưa làm rõ được bao nhiêu dữ liệu về các hoạt động của con người đang được sử dụng cho các hệ thống AI. Những nỗ lực trên không phải là sai lầm, mà đơn giản chỉ là chưa đủ.
Trước tính bức thiết của việc điều tiết AI, chính quyền cần phải coi dữ liệu là một lĩnh vực điều tiết có vai trò quan trọng tương đương. Những dữ liệu nào có liên quan trực tiếp đến con người bằng xương bằng thịt và có những quyền cơ bản thì phải được điều tiết theo cách khác.
Dữ liệu về con người được cấp vào hệ thống AI chạy bằng những thuật toán. Chúng ta cần điều tiết lĩnh vực đổi mới sáng tạo thuật toán, nhưng chúng ta lại đang phớt lờ dữ liệu mà thuật toán cần để hoạt động.
Danh mục những thứ bị cấm trong Luật AI của EU đọc lên cứ như bản liệt kê những cơn ác mộng tồi tệ nhất của loài người. Hệ thống sinh trắc học thời gian thực (“real-time”) tại nơi công cộng, phân biệt đối xử với người yếu thế, hay dùng AI để dự đoán khả năng phạm tội là ví dụ cho những thứ mà AI có thể làm được song phải chịu sự kiểm soát gắt gao hay bị cấm theo luật trên. Tuy nhiên, dù việc tạo ra hay thương mại hóa những tính năng này có bị cấm thì dữ liệu vẫn có khả năng và thực tế là vẫn tiếp tục được thu thập.
Thay vì cho phép các công ty thoải mái thu thập dữ liệu về hàng loạt các nhóm người khác nhau trên toàn thế giới, tại sao ta không đưa ra các giới hạn dữ liệu? Tại sao ta không thiết lập một hệ thống của từng nước hay thậm chí toàn cầu để đăng ký các công ty muốn tìm kiếm dữ liệu cá nhân có khả năng nhạy cảm, từ đó ta có thể yêu cầu các công ty này giải trình vì sao họ lại cần các thông tin này? Nếu tổ chức nào mở cửa kho dữ liệu của mình để người khác truy cập dễ dàng thì họ cần giải trình lý do cũng như phải đưa ra được các biện pháp đảm bảo an toàn.
Danh mục như trên sẽ cho phép ta xét duyệt rồi chấp thuận yêu cầu sử dụng dữ liệu theo những khoảng thời gian và mục đích nhất định, hoặc là từ chối hẳn. Danh mục như vậy cũng cho phép cơ quan quản lý phát hiện những vụ việc thu thập và sử dụng dữ liệu một cách trái phép. Những công ty vi phạm sẽ có thể bị phạt.
Quy trình đăng ký phức tạp sẽ khiến các công ty phải cân nhắc việc có nên thu thập một loại dữ liệu nào đó hay không. Trong một số trường hợp, có thể họ sẽ đi đến kết luận là cái lợi thu được không đáng với công sức bỏ ra.

Mô hình cần ít dữ liệu hơn
Một ý tưởng có lẽ thậm chí còn tốt hơn nữa là một cơ chế mạnh mẽ hơn và mang tính toàn cầu cao hơn nhằm thực thi các chính sách hiện hành về giảm thiểu dữ liệu, kèm theo đó là một khuôn khổ thực thi phù hợp hơn.
Những vấn đề quy định còn chưa rõ ràng có thể dựa vào các yếu tố quyền con người mang tính toàn cầu để làm cơ sở chính đáng cho việc ngăn chặn thu thập dữ liệu. Hơn nữa, chính quyền có thể khuyến khích đổi mới sáng tạo trong việc xây dựng các mô hình AI cần ít dữ liệu hơn. Các nhà nghiên cứu AI đang tiến hành các thử nghiệm “ít nhưng chất” (“less is more”) – tức là những mô hình nhỏ hơn có thể chứng minh rằng chúng ta không cần nhiều dữ liệu tới mức mà ChatGPT cần mà vẫn đưa ra được những kết quả có chất lượng tốt.
Những nghiên cứu mới nhất cho thấy máy có thể học bằng cách bắt chước khả năng của trẻ nhỏ trong việc khái quát hóa chỉ từ một vài kinh nghiệm ít ỏi. Trong khi những mô hình ngôn ngữ lớn (“large language model”) như ChatGPT đòi hỏi phải có hàng triệu hay thậm chí đến hàng nghìn tỷ từ thì mỗi em bé có thể học với một số lượng từ nhỏ hơn rất nhiều.
Có lẽ phần “trí tuệ” của AI có thể được lặp lại trong máy bằng cách thay đổi phương pháp dùng để huấn luyện các mô hình máy học, thay vì tiếp tục cách thức lâu này là nhồi nhét thêm dữ liệu hay tăng cường thiết bị điện toán.
Nhiều người có thể coi ý tưởng chính quyền có thể kiểm soát được môi trường AI vốn luôn luôn biến chuyển là câu chuyện nực cười. Nhưng có lẽ đó là do chính quyền chưa tập trung vào thế mạnh của mình. Chính quyền có rất nhiều kinh nghiệm trong quản lý dữ liệu về con người, và AI hiện nay cần rất nhiều dữ liệu để hoạt động. Những người làm chính sách phải bỏ qua một vài kiểu đưa tin ồn ào (*) hiện nay để công nhận tầm quan trọng của dữ liệu trong việc làm cho AI vừa an toàn vừa hoạt động tốt. □
***
Ghi chú (*): Nhóm nghiên cứu đa quốc gia mang tên “Định hình AI thế kỷ XXI” (“Shaping 21st-Century AI”) vừa công bố báo cáo năm 2022 cho thấy truyền thông phóng đại nhiều vấn đề về AI, và đặc biệt là phản ánh lợi ích của doanh nghiệp và chính quyền nhiều hơn là cán cân quyền lực đằng sau những lợi ích này.
GS. Wendy H. Wong là giáo sư chính trị học tại Đại học British Columbia ở thành phố Kelowna, Canada, tập trung nghiên cứu và giảng dạy về các chủ đề quyền con người và quan hệ quốc tế trong thời đại kỹ thuật số, trong đó có AI. Bà là tác giả của quyển sách “Chúng ta chính là dữ liệu: quyền con người trong thời đại kỹ thuật số” (“We, the data: Human rights in the digital age”, NXB Học viện Công nghệ Massachusetts, 2023). Tác phẩm này được Giải thưởng sách Balsillie cho sách phi hư cấu về chính sách công năm 2024 và vào vòng chung khảo của Giải thưởng sách Lionel Gelber về quan hệ quốc tế năm 2024. Cuốn sách này là kết quả từ những nghiên cứu của bà khi lo ngại trước cách đưa tin cũng như khái niệm của công chúng hiện nay về AI. Cụ thể, bà nhấn mạnh việc chúng ta cần phải chú ý hơn đến những hệ quả xã hội và chính trị của AI. Qua quyển sách này, GS. Wong nhấn mạnh đến nhiều vấn đề cần được chú ý hơn trong thời đại AI. Chẳng hạn như mỗi người phải ý thức mình có quan hệ mật thiết về lợi ích với dữ liệu về mình. Ta cần nhận thức rằng dữ liệu không chỉ là một phần của thị trường mà là một phần của mỗi chúng ta. Điều này có nghĩa là dữ liệu có thể trở thành một yếu tố trong các khuôn khổ toàn cầu về quyền con người, và chúng ta cần chú ý đến thực trạng những tập đoàn công nghệ lớn hiện đang đóng vai trò đáng kể trong việc thực thi (hay phớt lờ) những quyền con người này – một vai trò trước đây thường được cho là chỉ thuộc về nhà nước. Các cộng đồng và chính phủ trên thế giới cần đặc biệt quan tâm những vấn đề như thế, thay vì phó mặc cho các bên thu thập dữ liệu. GS. Wong cũng nhấn mạnh việc nâng cao nhận thức chung về dữ liệu (“data literacy”) trong cộng đồng. Nếu không coi hiểu biết về dữ liệu là một quyền con người căn bản, đa số chúng ta sẽ chịu nguy cơ bị tụt lại phía sau khi các bên thu thập thông tin khai thác dữ liệu về chính bản thân chúng ta. Hiện nay, một số nơi trên thế giới đã đưa ra nhiều chương trình giáo dục để giúp cộng đồng thấy rằng ta không cần phải là nhà khoa học dữ liệu mới có thể hiểu được những khái niệm cơ bản của quy trình tạo ra dữ liệu cũng như cách lựa chọn nguồn dữ liệu của chúng ta. Estonia là nước đi đầu trong việc tiến hành chương trình giáo dục rộng rãi về hiểu biết dữ liệu. Công việc này đòi hỏi nhiều công sức và thời gian, và các chương trình và thể chế trong cộng đồng (như thư viện địa phương) có thể đóng vai trò lấp khoảng trống này trước mắt. |
TS. Nguyễn Trịnh Đôn dịch
Bài đăng Tia Sáng số 3/2025