Mặt trái của thuật toán

Ứng dụng thuật toán ngày càng trở nên phổ biến trên toàn thế giới, không chỉ trong kinh doanh thương mại và sản xuất chuyên nghiệp, mà ngay cả trong các hoạt động sinh hoạt hằng ngày. Song song với sự phổ biến này là những mối lo ngại về thiên kiến thuật toán (algorithm bias), khái niệm chỉ ra những hệ quả bất cập trong việc xã hội đang ngày càng lệ thuộc vào những thuật toán tưởng chừng như rất khách quan và công bằng.


Khi người tại Mỹ dùng nhập từ khoá “CEO” vào công cụ Google Image, kết quả tìm kiếm chỉ cho thấy 11% hình ảnh CEO phụ nữ, góp phần làm hằn sâu tư duy kỳ thị giới tính.

Thuật toán là gì?

Phó Giáo sư Robert K. Hill tại đại học Portland State định nghĩa thuật toán là một cấu trúc toán học với ‘‘cấu trúc điều khiển phức hữu hạn, trừu tượng, hiệu quả, mang tính mệnh lệnh, hoàn thành một mục đích nhất định, theo các quy định nhất định.” Theo như định nghĩa này, một thuật toán không thể chỉ được hiểu đơn thuần dưới ngôn ngữ và lập luận của toán học. Việc định nghĩa thuật toán bao hàm cả những khái niệm như “mục đích” và “quy định” đồng nghĩa với việc thuật toán luôn tồn tại dưới dạng áp dụng thực tiễn, thi hành dưới những bối cảnh cụ thể, và tạo ra những hiệu ứng cụ thể. 
Ngày nay, khi công chúng và báo đài nói về thuật toán, họ không đơn thuần chỉ nói về những công thức toán được làm ra nhằm mục đích giải quyết một vấn đề mang tính toán học. Khi nhắc đến thuật toán, người ta ngày càng mở rộng ý nghĩa của khái niệm này trong bối cảnh áp dụng khoa học công nghệ khi giải quyết các vấn đề bình thường nhất: nhà hàng nào bán món phở ngon nhất tại Hà Nội, thông tin gì đáng chú ý trên news feed cá nhân trên Facebook, hay tài xế Grab nào đang ở gần bạn nhất. Cách hiểu phổ biến này chỉ chú trọng đến một loại thuật toán rất cụ thể: thuật toán dùng để đưa ra quyết định. Giải thích một cách nôm na, thuật toán ứng dụng quyết định thường được dùng để tìm ra những giải pháp “tốt nhất”: hành động tốt nhất có thể đưa ra trong một tình huống nhất định, cách giải thích dữ liệu tốt nhất khi xử lý một khối dữ liệu, vân vân. Dưới cách hiểu này, thuật toán không chỉ làm tăng năng suất mà còn hoàn toàn thay thế hành vi phân tích và quyết định của con người. Cụ thể hơn, thuật toán thường hoàn toàn thay thế con người trong việc đưa ra các quyết định khi phạm vi hoặc quy mô của dữ liệu và các quy tắc liên quan đến việc xử lý dữ liệu này quá lớn hoặc quá phức tạp.
Ứng dụng của thuật toán mang tính phổ biến rộng rãi nhất trong cuộc sống hằng ngày, tuy nhiên, lại không nằm ở lĩnh vực tự động hóa quyết định. Trong sản xuất và chế biến tự động, việc áp dụng thuật toán để tự động hoá các công việc mang tính lặp đi lặp lại đã được thực hiện từ rất lâu. Việc sử dụng thuật toán trong tự động hóa quyết định khác với các ứng dụng phổ biến khác của thuật toán ở chỗ, thuật toán trong tự động hoá quyết định thường đưa ra các quyết định và giải pháp nhìn chung mang tính đáng tin cậy cao; tuy nhiên, các giải pháp này thường vô cùng chủ quan, và không nhất thiết là luôn đúng. Việc ứng dụng thuật toán trong tự động hoá quyết định thường gây nhiều tranh cãi, do thuật toán trong hạng mục này luôn dựa trên các quy tắc quá phức tạp, gây nhiễu và làm khó cho việc phân tích thẩm định tính chính xác và hệ quả đạo đức của các thuật toán này. 

Ứng dụng thuật toán trong tự động hoá quyết định

Ứng dụng thuật toán trong tự động hoá quyết định tại các quốc gia phát triển ngày nay vô cùng đa dạng, bao gồm từ những mô hình đưa quyết định đơn giản đến những thuật toán định dạng hồ sơ phức tạp. Những ví dụ tiêu biểu nhất cho sự đa dạng này bao gồm các đại lý phần mềm trực tuyến được sử dụng bởi các nhà cung cấp dịch vụ trực tuyến thay mặt người dùng thực hiện các thao tác cần thiết trên môi trường mạng, thuật toán giải quyết tranh chấp trực tuyến thay thế con người ra quyết định hòa giải tranh chấp, hệ thống đề xuất và lọc so sánh và nhóm người dùng để cung cấp nội dung cá nhân hóa, hệ thống hỗ trợ quyết định lâm sàng giúp đề xuất sử dụng thuốc và phương pháp điều trị cho bác sĩ, và thuật toán điều khiển hệ thống kiểm soát và dự đoán dự đoán các điểm nóng tội phạm nhằm hỗ trợ lực lượng cảnh sát điều tra. Sự áp dụng rộng rãi này không chỉ góp phần giúp các công việc trước đây thường đảm nhiệm bởi con người được thực thi một cách nhanh chóng và hiệu quả hơn, mà còn có khả năng thay đổi cách con người hiểu và nhìn nhận những công việc này. Ví dụ điển hình cho điều này là việc phân loại nhóm rủi ro cho người mua bảo hiểm mà các công ty bảo hiểm lớn trên thế giới thực hiện lên mỗi khách hàng của họ. Các thuật toán phân tích xử lý dữ liệu với quy mô cao để xác định các yếu tố nào liên quan tới việc liệu người mua bảo hiểm thuộc đối tượng rủi ro cao hay thấp, và thuộc định loại rủi ro nào. Nếu trước đây công việc này được tỉ mẩn đánh giá bởi các nhân viên bảo hiểm dựa trên vài chục tiêu chí đánh giá, thì giờ đây thuật toán có thể xử lý hàng chục ngàn các yếu tố liên quan từ trực tiếp đến gián tiếp ảnh hưởng mức độ rủi ro của một khách hàng, và tối ưu hóa các gói bảo hiểm mang lại nhiều lợi nhuận nhất cho họ.

Sự phức tạp của ứng dụng thuật toán lên các quyết định có hệ quả trực tiếp đến con người đồng nghĩa với việc khó khăn trọng lý giải tường tận và cụ thể quy trình cũng như logic của việc đưa ra các quyết định này. Con người, với ngôn ngữ và khả năng xử lý thông tin hạn hẹp hơn hẳn máy tính, khó lòng giải thích triệt để lý luận đưa ra quyết định của thuật toán. Hai cá nhân A và B có cùng độ tuổi, thu nhập, giới tính, trình độ học vấn, nghề nghiệp, và thói quen sinh hoạt thể thao có để được phân loại vào hai nhóm rủi ro hoàn toàn khác nhau dựa trên phân tích của thuật toán, mà công ty bảo hiểm cũng như hai cá nhân này không thể đưa ra lý giải triệt để cho sự phân loại này. Hàng chục ngàn các yếu tố khác nhau, như việc cá nhân A đã lập gia đình, sinh sống tại khu vực tỉnh lẻ phía Bắc, sống chung với cha mẹ và ông bà, thường hay chơi game trực tuyến, và có thói quen uống bia rượu vào cuối tuần đều được thuật toán xử lý trong nháy mắt, cùng với tất cả các thông tin mà công ty bảo hiểm có thể thu thập được một cách tự động từ A, để đưa ra quyết định phân loại.


Công cụ nhận diện khuôn mặt của Amazon Rekognition đã nhầm lẫn 28 nghị sĩ Mỹ với tội phạm. 

Vì sao thuật toán có thiên kiến?

Thiên kiến thuật toán thực chất không phải là một vấn đề mới. Ngay từ những thập niên 70 và 80 của thế kỷ trước, Trường Y khoa Bệnh viện St. George, Vương quốc Anh đã từng bước đầu sử dụng một phần mềm máy tính sử dụng thuật toán để sàng lọc tự động việc tuyển chọn các ứng viên có nguyện vọng theo học tại ngôi trường này. Thuật toán này được thiết kế với khả năng bắt chước các quyết định tuyển sinh mà trường đã thực hiện trong quá khứ. Sau quá trình nghiên cứu đánh giá, kết quả cho thấy, có hơn 60 ứng viên bị loại khỏi danh sách phỏng vấn chỉ vì họ là phụ nữ, hoặc mang tên đến từ các quốc gia không thuộc khối châu Âu. Điểm đáng lo ngại của kết quả đánh giá này nằm ở chỗ, thuật toán được viết ra với mục đích đơn thuần là phát hiện và bắt chước những xu hướng tuyển sinh đã xảy ra trong quá khứ; người lập trình viên thiết kế ra chương trình này không hề có ý định phân biệt hay kỳ thị phụ nữ hay các ứng viên thiểu số đến từ các nước nằm ngoài khu vực châu Âu. Nói theo cách khác, đã từ rất lâu, việc thuật toán có thể làm lộ ra những thiên kiến được hằn sâu trong những quyết định do con người làm ra đã được chú ý tới bởi giới học thuật và các nhà làm luật. Không chỉ vậy, thuật toán còn có khả năng bao bọc những thiên kiến mang tính kỳ thị này dưới cái tên “khách quan” và “khoa học”, góp phần làm tăng sự thiếu công bằng trong các quyết định tự động hóa. Vào năm 1988, Ủy ban về sự bình đẳng chủng tộc của Vương quốc Anh đã kết luận rằng Trường Y St. St. George vi phạm phân biệt chủng tộc và giới tính trong quá trình tuyển sinh, và yêu cầu ngôi trường này ngưng sử dụng phần mềm với thuật toán đã gây nên sự phân biệt với các ứng viên nữ và không mang quốc tịch châu Âu. 
Gần đây hơn, vào năm 2015, khi các nhà nghiên cứu tại Đại học Carnegie Mellon sử dụng một công cụ có tên AdFisher để theo dõi và đo đạc mức độ thành công của quảng cáo trực tuyến bằng cách mô phỏng hành vi duyệt web của phái nam và phái nữ khi tìm kiếm việc làm trực tuyến. Họ đã vô cùng bất ngờ khi kết quả cho thấy hệ thống quảng cáo của Google liệt kê các công việc thu nhập cao cho nam giới với tỷ lệ cao hơn gấp sáu lần so với tỷ lệ hiển thị cùng cho phụ nữ. Họ kết luận rằng thuật toán quản lý việc hiển thị quảng cáo việc làm của Google, dù vô tình hay cố tình, đã mang tính kỳ thị giới tính. Trong một nghiên cứu khác, các nhà nghiên cứu từ Đại học Washington đã phát hiện ra rằng khi người tại Mỹ dùng nhập từ khoá “CEO” vào công cụ Google Image, kết quả tìm kiếm chỉ cho thấy 11% hình ảnh CEO phụ nữ. Tỉ lệ này phản ánh sai hiện thực rằng 27% CEO tại Mỹ là phụ nữ, và do đó góp phần làm hằn sâu tư duy kỳ thị giới tính khiến cho phái nam giữ vững hình ảnh lãnh đạo trong kinh doanh. Một nghiên cứu thực hiện bởi đại học Harvard vào năm 2012 cũng kết luận rằng quảng cáo cho các dịch vụ trực tuyến giúp tra cứu hồ sơ bắt giữ xuất hiện thường xuyên hơn khi người dùng internet tại Mỹ nhập vào các tên gọi của người Mỹ gốc Phi. Định kiến về giới tính và chủng tộc thường ăn sâu vào các thuật toán tưởng chừng như rất công bằng và minh bạch. 
Một điều đáng lưu tâm là việc các thuật toán thường được thiết kế và sử dụng khi không có phương pháp nào đáng tin cậy hơn có thể được sử dụng. Thuật toán không bao giờ là hoàn hảo. Song song với việc hiểu được rằng thuật toán luôn luôn sẽ mắc sai lầm, dù nhỏ hay lớn, là việc thay đổi nhận thức luận về ứng dụng thuật toán và ảnh hưởng xã hội của nó. 

Một số vấn đề mở trong thiên kiến thuật toán

Nhìn từ góc độ pháp lý, thiên kiến thuật toán được nhìn nhận một các khác nhau ở châu Âu và Mỹ. Liên minh châu Âu đã thông qua và chính thức đưa vào hiệu lực Luật Bảo vệ Dữ liệu châu Âu (GDPR) vào năm 2018. GDPR bao gồm quy định quan trọng về quyền được giải trình, theo đó công dân châu Âu có quyền được đòi hỏi các đơn vị kiểm soát và xử lý thông tin cung cấp một lời giải thích thỏa đáng về cách thức, lý do, bối cảnh, yều cầu, và các kết cấu phân loại mà đơn vị này đã sử dụng trong quá trình đưa ra quyết định liên quan đến họ một cách tự động hóa. Quy định này đi ngược lại với cách hiểu của Mỹ về thuật toán; Mỹ cho rằng toán là sản phẩm trí tuệ mang tính độc quyền, và do đó người viết ra thuật toán và các công ty kinh doanh dựa trên thuật toán được giữ bí mật thuật toán của họ một cách hợp pháp nhằm tránh sự dòm ngó của các đối thủ cạnh tranh và công chúng nói chung. 
Từ góc độ học thuật, ứng dụng thuật toán hiện nay đưa ra nhiều vấn đề đạo đức phức tạp còn bỏ ngỏ. Nhóm nghiên cứu tại Đại học Oxford đề xuất sáu lĩnh vực đạo đức cần được nghiên cứu dựa trên đánh giá thi hành thuật toán rộng rãi trên toàn khối châu Âu như sau: 
1. Bằng chứng không đủ tính kết luận: thuật toán đưa ra kết luận từ dữ liệu thông qua các phương pháp số liệu thống kê suy luận hoặc/và các kỹ thuật học máy (machine learning). Loại kiến thức được tạo ra từ các phương pháp này luôn mang xác suất; tuy xác suất chuẩn xác của các kết luận này thường là cao (tùy vào mức độ định nghĩa giới hạn xác suất của người thiết kế thuật toán), kết luận đưa ra bởi thuật toán luôn luôn không chắc chắn. Tuy vậy, các tổ chức cơ quan xã hội thường có xu hướng phớt lờ, hoặc không hiểu rõ đặc tính hoạt động của thuật toán, và đánh đồng lượng dữ liệu và khả năng xử lý dữ liệu chóng mặt của quy trình tự động hóa quyết định với chất lượng của quyết định được thuật toán đưa ra. 
2. Bằng chứng không thể dò xét: Khi dữ liệu được sử dụng (hoặc được xử lý để tạo ra) kết luận, một yêu cầu hợp lý cho quá trình này là việc người dùng có quyền đòi hỏi lý giải sự tương quan giữa dữ liệu được dùng và kết luận. Cụ thể hơn, việc giám sát mối quan hệ giữa dữ liệu đi vào và kết luận đi ra cần được mang ra tranh luận công khai, nhằm tránh việc thuật toán bị lạm dụng vì mục đích xấu. Tuy nhiên, bởi các vận hành tự động với quy mô lớn của thuật toán và các ứng dụng sử dụng thuật toán, việc dò xét bằng chứng và đánh giá chất lượng từ bằng chứng đến kết luận một cách thủ công là vô cùng khó khăn và tốn thời gian. 
3. Bằng chứng dẫn dắt sai lầm: một số lý thuyết định lượng truyền thông, đặc biệt là mô hình toán học về truyền thông của Shannon và Weaver, xuất bản năm 1998, đã từ lâu nhấn mạnh tầm quan trọng của chất lượng bằng chứng trong việc đánh giá chất lượng mô hình xử lý dữ liệu. Shannon và Weaver tóm gọn quy tắc này trong câu nói bất hủ ‘garge in, garbage out’, tạm dịch là ‘nếu đầu vào là rác, thì chắc hẳn đầu ra cũng không thể nào khác hơn’. Với số lượng loại dữ liệu khổng lồ mà thuật toán được thiết kế để xử lý, việc rà soát độ ‘rác’ của dữ liệu đi vào là hầu như không thể.  
4. Kết quả thiếu công bằng: Các quyết định đưa ra bởi thuật toán có thể được đánh giá theo nhiều tiêu chí và nguyên tắc đạo đức khác nhau; liệu tác động của một quyết định tự động hóa có công bằng hay không phụ thuộc vào đối tượng chịu thiệt thòi từ quyết định đó. Ngay cả khi một quyết định được đưa ra trên cơ sở bằng chứng thuyết phục, xem xét kỹ lưỡng và có căn cứ, không ai có thể cam đoan rằng các nhóm xã hội cần được bảo vệ (như phụ nữ, nhóm sắc tộc thiểu số, nhóm xu hướng tính dục thiểu số) không chịu ảnh hưởng tiêu cực từ những quyết định này trên diện rộng. 
5. Hệ quả mang tính biến đổi vĩ mô: Các hoạt động dựa trên thuật toán, điển hình như việc lập hồ sơ con người và chia họ vào các nhóm khác nhau, có khả năng tái định hướng cấu trúc xã hội thông qua cách hiểu và lập luận theo lý luận của thuật toán. Luciano Floridi, triết gia hàng đầu thế giới trong lĩnh vực lý luận thông tin, nhận định rằng tư duy thuật toán có thể ảnh hưởng đến cách chúng ta nhìn nhận thế giới, và từ đó thay đổi tổ chức chính trị xã hội theo tư duy thuật toán. 
6. Khả năng truy xuất nguồn gốc: tác hại gây ra bởi ứng dụng thuật toán thường rất khó để gỡ lỗi, từ việc phát hiện tác hại đến việc tìm ra nguyên nhân. Khó hơn nữa là việc xác định ai phải chịu trách nhiệm về tác hại gây ra bởi thuật toán. 
Sáu vấn đề nêu trên đặt ra một số câu hỏi còn bỏ ngỏ trong vấn đề thiên kiến thuật toán mà các nhà khoa học cũng như các nhà làm luật đang ngày càng quan tâm tìm cách giải quyết. Làm thế nào để có thể thiết kế ra các hệ thống thuật toán khiến con người có thể hiểu được mà vẫn không làm giảm hiệu suất của tự động hóa? Làm thế nào có thể đạt được tính minh bạch và trách nhiệm trong hệ thống thuật toán không thể dò xét được bởi con người? Làm thế nào để chỉ ra những tương đồng giữa các hệ thống đang dần được giới thiệu vào thị trường nhằm mục đích xác định các yêu cầu trách nhiệm đạo đức? Câu trả lời vẫn chờ đợi chúng ta trong tương lai. □

Tác giả