Lời kể và cảnh báo từ góc nhìn của tác giả là kỹ sư dữ liệu và AI từng xây dựng các hệ thống chấm điểm, đồng thời trực tiếp trải qua việc bị đánh giá, chấm điểm trong các dịch vụ tài chính - ngân hàng.
Tháng trước, Tuệ Nhiên nhận được cuộc gọi từ ngân hàng. Khoản vay mua căn hộ 70 mét vuông mà cô theo đuổi suốt hai năm bị từ chối. Lý do là gì? Điểm tín dụng của cô "chưa đủ tiêu chuẩn", dù chưa từng nợ xấu một đồng nào. Cô hỏi nhân viên ngân hàng: tại sao điểm của tôi thấp? Câu trả lời cô nhận được chỉ là: "Hệ thống tự động đánh giá, em không biết cụ thể chị ạ."
Câu chuyện của Tuệ Nhiên là hư cấu, nhưng cảm giác bất lực của cô thì không. Năm 2023, khi tôi vay tiền mua nhà tại một ngân hàng thương mại thuộc nhóm 10 ngân hàng lớn nhất Việt Nam, một loạt câu hỏi tương tự đã xuất hiện: hạn mức vay tín chấp không được công bố rõ ràng theo thu nhập; tài sản thế chấp được định giá thấp hơn giá thị trường khoảng 20–30%, nhưng ngân hàng không đưa ra được lời giải thích cụ thể về cách tính.
Cuộc chuyển giao quyền lực thầm lặng
Có một sự thay đổi lớn đang diễn ra mà ít người để ý. Trước đây, khi bạn xin vay vốn, một nhân viên tín dụng sẽ ngồi đối diện, nhìn vào mắt bạn, hỏi han về gia đình, công việc, rồi dựa vào kinh nghiệm và trực giác để quyết định. Ngày nay, phần lớn quá trình ấy diễn ra trong hệ thống chỉ gồm có dữ liệu và thuật toán. Bạn đến chi nhánh ngân hàng, điền vào một biểu mẫu dài, nhân viên nhập hồ sơ vào "hệ thống ngân hàng", bạn ngồi đó bồn chồn chờ đợi, thuật toán chạy và đưa ra một con số.
Con số đó quyết định tất cả: khoản vay tín dụng sinh viên cho cả sự nghiệp trước mắt, hay cũng có thể là khoản vay cho căn nhà mơ ước cho gia đình, hoặc chiếc xe máy giá rẻ cho bác tài xế công nghệ, anh nhân viên giao hàng mưu sinh...
Tương lai của một con người sẽ được định đoạt dựa vào cỗ máy lạnh lùng.
Tại sao chúng ta lại trao quyền phán xét cho máy móc? Câu trả lời nằm ở niềm tin vào cái gọi là "tính khách quan của dữ liệu".
Ảnh minh họa: Shutterstock
Logic có vẻ hợp lý: máy móc không cảm xúc thì sẽ không thiên vị, không mệt mỏi, không nhận hối lộ. Máy móc xử lý được hàng triệu hồ sơ trong thời gian một nhân viên uống xong ly cà phê sáng. Nhưng chính sự "khách quan" ấy lại khiến nó trở thành một quyền lực vô hình - quyền lực không cần đối thoại.
Thuật toán biết gì về bạn?
Nhiều người nghĩ thuật toán chỉ dựa vào những gì mình khai trong đơn: tên, tuổi, thu nhập, lịch sử vay nợ. Nhưng đó chỉ là phần nổi của tảng băng. Trên thực tế, điều đó thường chưa đủ để đưa ra quyết định.
Về mặt kỹ thuật, một hệ thống chấm điểm tín dụng hiện đại hoàn toàn có thể biết bạn thường mua sắm online lúc mấy giờ đêm, có thói quen sạc điện thoại đầy pin trước khi ra khỏi nhà hay không, dừng xem quảng cáo nào lâu hơn bình thường, dùng thiết bị nào, thông số chi tiết của thiết bị... Những chi tiết tưởng chừng vô nghĩa này lại là mỏ vàng, vì chúng có tương quan thống kê với hành vi trong quá khứ.
Tôi từng tham gia xây dựng thuật toán chấm điểm người dùng cho chương trình tích điểm của một chuỗi siêu thị, cũng như hệ thống đánh giá khách hàng tiềm năng cho một nền tảng giao dịch bất động sản. Dữ liệu đầu vào không chỉ gồm thông tin người dùng tự khai, mà chủ yếu đến từ hệ thống tracking hành vi qua web và ứng dụng di động (các thông tin lấy từ theo dõi hành vi này luôn có trọng số lớn. Các thông tin chính thức như nghề nghiệp, thu nhập, tình trạng an sinh xã hội vẫn được sử dụng nhưng rất ít khi đủ để mô hình đưa ra dự đoán có độ tin cậy cao về hành vi mỗi người).
Thuật toán theo dõi việc người dùng đọc bài nào, click vào đâu, dừng lại bao lâu, truy cập bằng laptop hay điện thoại, vào lúc mấy giờ, từ khu vực nào. Ví dụ, khi nền tảng đăng một bài viết về bất động sản tại một khu đô thị cụ thể, mọi hành vi tương tác với bài viết đó đều được ghi nhận. Khi cần chấm điểm khách hàng, các dữ liệu hành vi này thường mang trọng số lớn, bởi chúng phản ánh "ý định" tốt hơn bất kỳ câu trả lời khảo sát nào.
Thậm chí, hành vi sạc pin cũng hữu ích cho thuật toán đưa ra dự báo về bạn. Một nghiên cứu từ các công ty fintech cho thấy: người sạc điện thoại đầy trước khi ra ngoài có xu hướng trả nợ đúng hạn cao hơn bởi vì họ là người biết lo xa. Thế thì liệu rằng điểm tín dụng của cậu trai luôn sạc đầy pin điện thoại trước khi ra khỏi nhà để sẵn sàng tham gia các cuộc chiến trò chơi điện tử có xứng đáng được đánh giá cao hơn điểm tín dụng của anh kỹ sư luôn đi làm với điện thoại sắp cạn pin vì anh ấy để sạc ở văn phòng? Hay nếu một ngày nọ bạn vô tình truy cập vào mẩu tin quảng cáo có nội dung khiêu dâm bất chợt hiện ra khi bạn lướt Facebook sẽ khiến các cơ quan hành pháp đánh giá điểm công dân của bạn ở hạng B?
Đa phần chúng ta không hề biết rằng mọi hành vi hằng ngày, từ cuộc nói chuyện vui vẻ ở văn phòng, ăn, mặc, ở, đi lại, chữa bệnh... đều có thể bị thuật toán "nhìn", "nghe", bóc tách, phân loại, đánh giá.
Giám sát từ dữ liệu sinh trắc học
Từ những gì tôi chứng kiến trong thực tế xây dựng các thuật toán và đọc các nghiên cứu, tôi lo ngại rằng ranh giới tiếp theo của thuật toán sẽ không còn dừng ở hành vi số. Khi dữ liệu sinh trắc học, thiết bị đeo và các ứng dụng theo dõi sức khỏe ngày càng phổ biến, những tín hiệu sinh học cơ bản của con người có thể bị đưa vào các mô hình dự đoán rủi ro. Không phải để "theo dõi" cá nhân cụ thể, mà để sàng lọc: ai nên được ưu tiên, ai nên bị loại bỏ, ai bị coi là có khả năng gây tốn kém trong tương lai.
Rồi đến ngày thuật toán bắt đầu tiếp cận dữ liệu sinh trắc học. Thông qua đồng hồ thông minh, camera nhận diện khuôn mặt, cảm biến trên điện thoại, nó có thể đọc được những gì bạn không nói ra. Nhịp tim bạn tăng khi nhìn thấy tin tức nào? Đồng tử bạn giãn ra khi lướt qua sản phẩm nào? Bạn có thể nói dối rằng mình không thích rượu bia, nhưng phản ứng cơ thể trước hình ảnh ly bia mát lạnh sẽ tố cáo tất cả. Hoặc thậm chí thuật toán biết bạn đến bệnh viện mỗi 2 tuần khi mùa đông đến, biết được công thức máu của bạn ở nhóm hiếm, biết bạn thiếu kháng thể virus viêm gan, thậm chí biết được những bệnh rất hiếm như thiếu enzyme phân hủy glycozen, và... biết cả thông tin về con trai bạn.
Đây sẽ là một món hời cho các hãng dược lớn để khai thác con mồi béo bở. Sẽ ra sao nếu hãng bảo hiểm nhân thọ từ chối đơn mua bảo hiểm cho một đứa trẻ mà không có bất kỳ lời giải thích thỏa đáng nào. Trong chiếc hộp đen của hệ thống đánh giá ấy, các thuật toán "dự đoán" rằng đứa trẻ ấy "có khả năng" nhận gen di truyền một căn bệnh hiếm gặp. Chỉ là "dự đoán" nhưng quyết định tương lai của một con người. Thuật toán không cần ai thành thật nạp thông tin. Nó lặng lẽ quan sát chúng ta.*
Mọi quyết định đều hợp lệ. Nhưng không quyết định nào được giải thích cụ thể. Và ai đang chấm những điểm số này? Không phải con người. Mà là thuật toán.
Khả năng biến cái sai thành đúng
Đây là phần khiến các kỹ sư dữ liệu và AI chúng tôi lo ngại nhất. Thuật toán học máy hiện đại không hoạt động theo những quy tắc cố định mà con người có thể đọc hiểu. Chúng tự học từ dữ liệu, tự tìm ra các mẫu hình và mối tương quan mà ngay cả người trực tiếp lập trình cũng không lường trước.
Việc trao cho thuật toán quyền giám sát con người giống như thả thần đèn ra mà không ai có thể kiểm soát trọn vẹn. Các tập đoàn, các kỹ sư cũng không thể biết trước được các thuật toán này có thể "tự nghĩ" ra việc mở rộng theo dõi, hoặc xử lý vượt quá yêu cầu ban đầu đến mức nào. Bởi trong phát triển AI có "hiện tượng ảo giác" (hallucination) – ngay cả kết quả đầu ra của các mô hình AI tốt nhất vẫn có thể bị sai lệch 5% dù dữ liệu đầu vào không hề đề cập. Tôi từng lấy ví dụ với các em sinh viên rằng "nếu để AI chấm điểm công dân thì cứ 100 triệu dân sẽ có 5 triệu dân bị chấm oan mà không biết khóc với ai".
Nếu kỹ sư là người thợ xây, thì thuật toán giống như một tòa nhà được dựng lên bởi hàng trăm người khác nhau: người thiết kế, người cung cấp vật liệu, người quyết định tiêu chuẩn. Khi tòa nhà gặp sự cố, không ai có thể chỉ ra một cá nhân duy nhất chịu trách nhiệm.
Một thuật toán tuyển dụng có thể phát hiện ra mối liên hệ giữa loại trình duyệt web bạn dùng và hiệu suất làm việc của bạn. Nó không cần hiểu tại sao. Nó chỉ cần biết mối liên hệ đó tồn tại về mặt thống kê. Dữ liệu đi vào, điểm số đi ra, nhưng không ai thực sự hiểu chuyện gì xảy ra bên trong. Khi một người bị từ chối khoản vay, không ai có thể giải thích chính xác yếu tố nào đã kéo điểm tín dụng xuống. Là do hay thức khuya? Do từng tìm kiếm thông tin về bệnh trầm cảm? Hay đơn giản là do đang sống trong một khu vực có tỷ lệ nợ xấu cao?
Vị "thẩm phán" mới này không chỉ vô hình, mà còn im lặng. Nó không có nghĩa vụ giải thích. Và quan trọng hơn, nó không biết thương xót. Nó được lập trình để tối ưu hóa lợi nhuận, giảm rủi ro, chứ không phải để hiểu hoàn cảnh của từng con người.
Điều đáng sợ nhất về thuật toán chấm điểm không phải là chúng có thể sai. Mà là chúng có khả năng biến cái sai thành cái đúng. Bạn thử hình dung thế này nhé: thuật toán đánh giá bạn rủi ro cao, dù thực tế không phải vậy. Vì điểm thấp, ngân hàng tăng lãi suất. Vì lãi suất cao, bạn phải trả nhiều tiền hơn mỗi tháng. Vì gánh nặng tài chính, bạn bắt đầu trễ hạn vài hóa đơn.
Lúc này, thuật toán nhìn vào và gật gù rằng "đúng như tôi dự đoán". Đây là vòng lặp mà các nhà xã hội học gọi là "lời tiên tri tự ứng nghiệm". Điểm số không còn là thước đo thụ động. Nó trở thành tác nhân chủ động định hình cuộc đời bạn.
Chúng ta không thể quay ngược bánh xe lịch sử. Những hệ thống này, nếu được kiểm soát tốt, mang lại hiệu quả thực sự: phát hiện gian lận tài chính, phân bổ nguồn lực hợp lý, thậm chí phát hiện bệnh tật sớm. Nhưng cũng cần một sự tỉnh táo. Cuộc sống của chúng ta ngày càng gắn với thuật toán. Từ chỉnh sửa ảnh để tăng like, lái xe cẩn thận chỉ để giữ điểm trên ứng dụng, ăn uống máy móc để cải thiện chỉ số sức khỏe. Ranh giới giữa việc sử dụng công cụ và bị công cụ chi phối ngày càng mờ nhạt...
Có lẽ đó là điều chúng ta cần thay đổi: không phải từ bỏ thuật toán, mà là đòi hỏi sự minh bạch. Nếu một con số có quyền quyết định cuộc đời mình, ít nhất chúng ta cũng nên biết nó được tính như thế nào.
Hiện tượng "ảo giác của thuật toán" (Hallucination) là khi AI tạo ra những câu trả lời sai không dựa trên dữ liệu có thật, bịa đặt nội dung hoặc tạo ra thông tin vô lý dù thoạt nghe rất thuyết phục.
Dù tự học từ dữ liệu, AI đôi khi vẫn suy diễn ra những mối liên hệ mà ngay cả người lập trình cũng không lường trước được. Tỷ lệ hallucination ngày càng được cải thiện, nhưng gần đây có vẻ đang chững lại. Theo đánh giá của Vectara, nền tảng chuyên sâu về tìm kiếm ngữ nghĩa và hỏi đáp dựa trên dữ liệu doanh nghiệp, các mô hình AI tiên tiến nhất hiện nay có tỷ lệ ảo giác ở mức 2-5%. Trong khi các mô hình thế hệ thấp hơn có tỷ lệ ảo giác từ 10-25%. Nghĩa là cứ 100 câu trả lời từ AI thì có ít nhất 5 câu bị lỗi.
---
Tài liệu tham khảo:
• Thuật toán đánh giá hành vi tội phạm https://www.propublica.org/article/how-we-analyzed-the-compas-recidivism-algorithm
• Thuật toán đánh giá hồ sơ tuyển dụng https://www.reuters.com/article/us-amazon-com-jobs-automation-insight-idUSKCN1MK08G/
---
Chú thích:
Bài viết thể hiện trải nghiệm và quan điểm cá nhân của tác giả, không đại diện cho bất kỳ cơ quan tổ chức nào mà tác giả đã làm việc.