Cuộc cách mạng về dữ liệu hành vi trong khoa học xã hội

Khoa học xã hội chia ra làm hai nửa: khoa học xã hội truyền thống và khoa học xã hội tính toán. Phe nào sẽ được vinh danh trên ‘đại lộ danh vọng’ của ngành khoa học này?


Các nhà khoa học nghiên cứu dữ liệu từ hàng ngàn người sử dụng mạng xã hội để phân tích các nhóm có hành vi cực đoan. Nguồn: Minzhang Zheng và Neil Johnson

Sau gần một thập kỷ miệt mài trên con đường trở thành một nhà xã hội học thực thụ, bỗng ngày nọ khi đang thực hiện một dự án, Elizaveta Sivak – đang làm việc tại Trường Kinh tế Cao cấp trực thuộc Đại học Nghiên cứu Quốc gia ở Moscow, chuyên nghiên cứu về gia đình và thời thơ ấu – nhận ra rằng còn rất nhiều điều mà cô cần phải học.   

Vào năm 2015, cô đã tiến hành nghiên cứu các hoạt động của thanh thiếu niên bằng cách thực hiện một loạt các cuộc phỏng vấn yêu cầu họ kể tên mười địa điểm mà họ đã đến trong năm ngày qua. Một năm sau, dù đã phân tích xong dữ liệu nhưng cô vẫn cảm thấy khá thất vọng vì kết quả chỉ dựa trên cơ sở các cuộc phỏng vấn riêng lẻ. Khi người đồng nghiệp cho Sivak xem một bài báo phân tích dữ liệu từ Copenhagen Networks Study – một dự án đột phá theo dõi các mối liên hệ trên mạng xã hội, nhân khẩu học và vị trí của khoảng 1.000 sinh viên, với thời gian cập nhật phân tích là 5 phút một lần, trong suốt năm tháng. Khoảnh khắc ấy, cô biết rằng lĩnh vực nghiên cứu của mình sắp rẽ sang một hướng mới. “Tôi nhận ra rằng những kiểu dữ liệu mới này sẽ cách mạng hóa ngành khoa học xã hội mãi mãi. Và tôi nghĩ điều đó thật tuyệt”.

Sau đó, Sivak quyết định học lập trình, và tham gia vào “cuộc cách mạng”. Giờ đây, cô và các nhà khoa học xã hội tính toán khác đang khảo sát các tập dữ liệu khổng lồ và phức tạp, rút ra ý nghĩa từ những hoạt động trên nền tảng số của xã hội. Họ đang theo dõi các hoạt động  trực tuyến của mọi người; khảo sát sách và tài liệu lịch sử đã được số hóa; diễn giải dữ liệu từ các thiết bị cảm biến gắn trên người để ghi lại mọi bước đi và liên hệ của một cá nhân; thực hiện các cuộc khảo sát và thử nghiệm trực tuyến nhằm thu thập hàng triệu điểm dữ liệu; và thăm dò các cơ sở dữ liệu đồ sộ đến mức chúng có thể tiết lộ những bí mật to lớn của xã hội – chỉ bằng sự trợ giúp của các phép phân tích dữ liệu đầy tinh vi. 

Những năm qua, các nhà nghiên cứu đã sử dụng kỹ thuật này để phản biện các chủ đề mà các nhà khoa học xã hội đã theo đuổi trong hơn một thế kỷ: từ nền tảng tâm lý của đạo đức con người, ảnh hưởng của thông tin sai lệch, đến các yếu tố làm nên thành công của một người nghệ sĩ. Ngoài ra, một nghiên cứu đã phát hiện ra tình trạng phân biệt chủng tộc trong các thuật toán thông báo các quyết định chăm sóc sức khỏe; một nghiên cứu khác thì sử dụng dữ liệu điện thoại di động để lập bản đồ các vùng quê nghèo khó ở Rwanda. 

Markus Strohmaier, nhà khoa học xã hội tính toán tại Đại học Kỹ thuật Rhine-Westphalia Aachen ở Đức cho biết: “Thành tựu lớn nhất là các nhà khoa học đã thay đổi suy nghĩ của mình về dữ liệu hành vi kỹ thuật số và bắt đầu nhìn nhận nó như một nguồn dữ liệu thú vị và hữu ích”.

Nhưng không phải ai cũng chấp nhận sự thay đổi này. Một số nhà khoa học xã hội lo ngại các nhà khoa học máy tính đang quá tham vọng, họ vội vã tràn vào lĩnh vực này dù những bộ dữ liệu lớn của họ vẫn chưa thực sự tương hợp với các nghiên cứu trước đó. Một số người thì phàn nàn rằng các nhà nghiên cứu tính toán chỉ xem xét mẫu mà bỏ quên nguyên nhân, hoặc họ đưa ra kết luận khá mau chóng từ nguồn dữ liệu không đầy đủ và lộn xộn – thường thu được từ các nền tảng truyền thông xã hội và các nguồn dữ liệu bẩn khác.


Dữ liệu từ điện thoại di động cho thấy con người liên quan đến các mẫu hình dự đoán chuyển động. Nguồn: Kevin Frayer/Getty

Mặt khác, một số nhà khoa học xã hội tính toán đến từ các lĩnh vực như vật lý và kỹ thuật cho rằng nhiều lý thuyết khoa học xã hội quá viển vông hoặc không thể kiểm chứng. Marc Keuschnigg, nhà xã hội học phân tích tại Đại học Linköping ở Norrköping, Thụy Điển, cho biết tất cả những luồng tranh cãi này giống như “một cuộc tranh giành quyền lực giữa hai phe phái. Kẻ chiến thắng cuối cùng sẽ được vinh danh trên ‘đại lộ danh vọng’ của ngành khoa học xã hội”.

Nhưng hai phe rốt cục cũng hòa hoãn. Keuschnigg chia sẻ “Sự giao thoa của khoa học xã hội tính toán với khoa học xã hội truyền thống là không thể phủ nhận”, ông chỉ ra sự bùng nổ của nó trên các tạp chí, hội nghị và chương trình học. “Họ cũng bắt đầu tôn trọng nhau hơn”. 

Cuộc cách mạng tính toán

Năm 2007, một nhóm nhỏ các nhà khoa học đầy tham vọng đã triệu tập một cuộc họp để thảo luận về nghệ thuật thu thập dữ liệu khoa học xã hội. Họ muốn sử dụng các kỹ năng của mình hòng thay đổi thế giới. Trong buổi nói chuyện, nhà chính trị học Gary King tại Đại học Harvard ở Cambridge, Massachusetts, cho rằng một lượng lớn thông tin kỹ thuật số “sẽ giúp bạn có thể hiểu sâu hơn về xã hội, và cuối cùng là giải quyết – thực sự giải quyết – những vấn đề to lớn liên quan đến hạnh phúc con người”.  

Sau đó, các tạp chí lớn đã xuất bản một loạt các nghiên cứu khoa học xã hội tính toán. Một nghiên cứu từ năm 2006 đã xem xét cách xã hội ảnh hưởng đến sự phổ biến của một bài nhạc bằng việc tạo ra một thị trường âm nhạc trực tuyến nhân tạo có 14.341 người sử dụng. Những người tham gia đã tải xuống các bài nhạc – mà không phải lúc nào cũng được biết trước rằng bài nhạc đó có nổi tiếng hay không. Nghiên cứu cho thấy mức độ phổ biến của một bài hát trở nên khó dự đoán hơn khi hành vi của người dùng bị ảnh hưởng bởi hành vi của những người khác, điều này phần nào giải thích cho lý do vì sao các nhà sản xuất khó có thể dự đoán trước thành công của một bài nhạc. 

Hai năm sau, một nghiên cứu đã phân tích sự di chuyển của 100.000 người dùng điện thoại di động trong vòng sáu tháng và phát hiện ra rằng khá dễ để dự đoán xu hướng đi du lịch của mọi người. Các tác giả có thể tính toán khả năng tìm thấy một cá nhân ở bất kỳ địa điểm cụ thể nào, họ cho rằng việc xác định những điểm tương đồng trong các mô hình đi lại trong cộng đồng có thể là một nguồn tham khảo hữu ích cho các nhà quy hoạch đô thị, đồng thời giúp chúng ta hiểu được sự lây lan của dịch bệnh hoặc chuẩn bị cho các trường hợp khẩn cấp.

Cùng năm đó, một bài báo trên tạp chí công nghệ Wired cho rằng, kỷ nguyên dữ liệu lớn sẽ đánh dấu hồi kết của lý thuyết trong các ngành khoa học. Mặc dù bị nhiều người chỉ trích là bài báo đang làm quá lên, nhưng nó thực sự gây chấn động: hơn một thập kỷ sau, các nhà khoa học xã hội vẫn liên tục đề cập đến bài báo trên Wired như một tín hiệu cho thấy các lý thuyết khoa học xã hội đang bị tấn công.  

Nhưng dữ liệu lớn vẫn tiếp tục phát triển. Đối với Duncan Watts, nhà xã hội học tại Đại học Pennsylvania ở Philadelphia, những thay đổi trong khoa học xã hội gợi nhớ đến những gì đã xảy ra trong ngành sinh học vào những năm 1990, khi công nghệ bắt đầu tạo ra hàng loạt dữ liệu về trình tự DNA và biểu hiện gene. “Dữ liệu mới ào ạt như thác đổ, đòi hỏi chúng tôi phải nhìn nhận về dữ liệu theo một cách rất khác”. 

Nhưng các nhà khoa học xã hội truyền thống tỏ ra không mấy ấn tượng trước thành quả ban đầu của cuộc cách mạng. Họ coi các nghiên cứu về mạng xã hội là những thí nghiệm được thực hiện trên hàng nghìn người – mà những người ấy không hay biết rằng mình là ‘vật thí nghiệm’. Vào năm 2018, công ty tư vấn Cambridge Analytica của Anh bị cáo buộc đã thu thập dữ liệu từ hàng triệu tài khoản Facebook mà không có sự đồng ý của chủ sở hữu. Sau vụ bê bối, mọi người tỏ ra ngờ vực các nghiên cứu trên mạng xã hội, thậm chí nhiều dự án đã vấp phải khó khăn khi các nền tảng đưa ra những chính sách bảo mật mới.

Mặt trái của thuật toán

Những nghiên cứu ban đầu về các vấn đề phức tạp đã làm nảy ra những câu hỏi là phương pháp tiếp cận mới này có thể thấy câu trả lời từ dữ liệu nhưng chắc gì đã giải quyết được những vấn đề cơ bản và tồn tại đã lâu của khoa học xã hội như vấn đề bất bình đẳng hoặc ảnh hưởng của quan điểm xã hội. “Tôi nghĩ là các nhà khoa học xã hội không quan tâm lắm đến nhiều nghiên cứu về mạng Twitter ở thời điểm bắt”, Claudia Wagner, một nhà khoa học xã hội tính toán tại Viện nghiên cứu KHXH GESIS Leibniz, Đức, nói.


Một nhà trị liệu ở Mỹ đang kiểm tra phổi của bệnh nhân. Một thuật toán thiên kiến đã đưa ra khuyến nghị về chính sách y tế trên nhiều nhóm bệnh nhân. Nguồn: Alexandra Hootnick/NYT/Redux/eyevine

Một số người cho rằng, ít nhất những nghiên cứu đó là sản phẩm của một lĩnh vực mới nổi đang tìm cách định vị mình trong thế giới khoa học. Khi các phân tích trở nên phức tạp và các nguồn dữ liệu trở nên đa dạng hơn, lĩnh vực này đã giải quyết được nhiều vấn đề quan trọng như gốc rễ của phân biệt đối xử, bất bình đẳng và cực đoan hóa, Strohmaier nói. “Hiện tại thì chúng tôi mới có được loại dữ liệu mình cần để làm cơ sở nghiên cứu các vấn đề lớn”, ông cho biết.

Ví dụ, năm ngoái, các nhà nghiên cứu về y tế công cộng và kinh tế học hành vi đã sử dụng bệnh án của hơn 50.000 bệnh nhân trong hệ thống y tế Hoa Kỳ để kiểm tra ngược một thuật toán phân tích, vốn được dùng để đưa ra khuyến nghị nên giám sát và can thiệp sức khỏe thêm đối với một số người. Họ đã dùng mô hình để chỉ ra là thuật toán này có xu hướng phân biệt đối xử một cách có hệ thống đối với người da đen, và do đó có thể ảnh hưởng đến việc chăm sóc sức khỏe của hàng triệu người. Sau đó, các nhà nghiên cứu sử dụng hiểu biết này để tìm ra nguồn gốc của sự thiên vị đó và đề xuất các cách loại bỏ nó. Ví dụ, các thuật toán không nên căn cứ vào số tiền chi cho việc chăm sóc sức khỏe của một cá nhân là yếu tố để đánh giá mức độ chăm sóc mà họ cần vì khả năng tiếp cận chăm sóc sức khỏe không bình đẳng bởi người Mỹ da đen thường chi ít tiền hơn so với người Mỹ da trắng, ngay cả khi họ có cùng nhu cầu chăm sóc sức khỏe.

Nhưng đây không phải là thách thức duy nhất: các nhà khoa học xã hội tính toán từ ngành vật lý hoặc khoa học máy tính nhảy sang thường bị cho là không tìm hiểu các lý thuyết khoa học xã hội giải thích về hành vi của con người. Giulia Andrighetto, từng là một triết gia nhưng hiện là nhà khoa học xã hội tính toán tại Viện Khoa học Nhận thức và Công nghệ (Hội đồng Nghiên cứu Quốc gia Ý ở Rome), cho biết: “Họ có mẫu hành vi để phân tích nhưng thường thì họ không tìm hiểu cơ chế làm phát sinh những hành vi đó.” 

Để làm được công việc đó đòi hỏi nhà khoa học phải nắm chắc lý thuyết khoa học – xã hội. Jisun An, nhà khoa học xã hội tính toán tại Đại học Hamad Bin Khalifa ở Doha, tiến hành nghiên cứu về hành vi chia sẻ tin tức trên mạng xã hội ngay khi phong trào khoa học xã hội tính toán bắt đầu nở rộ. Lúc đầu, cô chỉ làm việc với các nhà khoa học máy tính khác, và họ phải vật lộn để xoay sở với các lý thuyết khoa học xã hội khác nhau. Giờ đây, cô hợp tác với các nhà chính trị học để nghiên cứu về ảnh hưởng của truyền thông đối với dư luận – và ngược lại – cũng như cách khuyến khích mọi người tăng cường sự đa dạng cho các nguồn tin tức. “Theo thời gian, mỗi bên rồi cũng sẽ thấu hiểu về ngôn ngữ và phương pháp của nhau”, An cho biết.

Đã có những dấu hiệu cụ thể về cú bắt tay này. Các nhà khoa học đang lên kế hoạch tổ chức hội nghị lớn đầu tiên kết hợp hai phương pháp tiếp cận vào năm 2021. Các trường đại học cũng đang mở ra những cơ sở nghiên cứu tập hợp thành viên từ các bộ phận khác nhau để thu hẹp dần khoảng cách, thậm chí Đại học George Mason ở Fairfax, Virginia đã thành lập một khoa riêng. Trại hè dành cho khoa học xã hội tính toán đã diễn ra tại hơn 30 địa điểm trên khắp thế giới, và một nhóm sinh viên trẻ nhiệt tình đã mang lại hy vọng rằng cuộc “đấu tranh” giờ đây sẽ nhường chỗ cho những hợp tác nghiên cứu đa dạng.

Những mâu thuẫn của hai cách tiếp cận 

Hai cách tiếp cận này có thể sẽ kết hợp vô cùng hiệu quả. Nhà khoa học dữ liệu Joshua Blumenstock tại Đại học Washington ở Seattle đã cùng các cộng sự sử dụng dữ liệu điện thoại di động của hàng triệu người ở Rwanda để suy ra tình trạng kinh tế xã hội của họ, sau đó xác nhận kết quả bằng cách so sánh chúng với dữ liệu được thu thập bằng các cuộc khảo sát thông thường. Các nhà hoạch định chính sách có thể sử dụng kết quả để đề xuất những vùng nghèo của đất nước cần được hưởng chính sách mới của chính phủ, hoặc để theo dõi tác động của các chính sách đã được ban hành.

Nhưng rõ ràng ở đây thiếu vắng sự liên kết giữa hai cách tiếp cận. Dẫn chứng một nghiên cứu được công bố vào năm ngoái về một mạng lưới các nhóm đối đầu trực tuyến trên nền tảng Facebook và Vkontakte, Joan Donovan, nhà khoa học xã hội tại Harvard, nói, các nhà vật lý và nhà khoa học máy tính thực hiện nghiên cứu không trích dẫn được các nghiên cứu khoa học xã hội quan trọng, do đó những lý giải cho phát hiện của họ không phong phú như mong muốn. Họ cũng đã khảo sát quá ít nền tảng truyền thông xã hội trong khi các nghiên cứu trước đây cho thấy, các nhóm đối đầu theo dõi những nhà lãnh đạo uy tín trên nhiều nền tảng. Từ đó, họ đưa ra một kết luận nguy hiểm: các nền tảng mạng xã hội có thể đã cố định hướng cuộc thảo luận trong các nhóm đối đầu, chẳng hạn bằng cách tạo tài khoản giả hoặc điều khiển nội dung tranh luận giữa các nhóm. Điều này có thể phản tác dụng nếu tăng khối lượng thảo luận trong nhóm và tăng thứ hạng của nhóm bằng các thuật toán tìm kiếm. Cô nghĩ rằng đáng lý nên kiểm tra sự lan truyền của các thông điệp đối đầu bằng cách để các công cụ tìm kiếm hạn chế khả năng hiển thị của các nhóm như vậy.

Nhà vật lý Neil Johnson thuộc Đại học George Washington ở Washington DC, đồng thời là tác giả chính của nghiên cứu về các nhóm đối đầu trên, đã quen với chỉ trích từ các nhà khoa học xã hội. Ông nói rằng mình đã trích dẫn các tài liệu tham khảo có liên quan và phù hợp, còn với các thuật toán tìm kiếm thì các công ty truyền thông xã hội có quyền thao túng chúng. “Đây chính là điều mà họ đang làm để ngăn chặn sự phổ biến của các trang và nhóm thông tin sai lệch về anti-vaccine và Covid-19,” ông nói. Nghiên cứu về thông tin sai lệch, xung đột và chủ nghĩa cực đoan, ông vẫn thường nhận được những lời khiếu nại mỗi khi xuất bản một bài báo có chất lượng. Tuy nhiên ông cũng thường được các tổ chức mời làm cố vấn bởi họ thích kết quả nghiên cứu có định lượng và năng lực mô hình hóa hiệu quả những can thiệp về chính sách. 

Johnson không phải là người duy nhất hoài nghi về tầm quan trọng của lý thuyết đối với các nghiên cứu kiểu như thế này. Giangiacomo Bravo, trước là nhà kinh tế xã hội và hiện là nhà khoa học xã hội tính toán tại Đại học Linnaeus ở Växjö, Thụy Điển, cho rằng nhiều lý thuyết khoa học xã hội hiện nay quá viển vông để có thể kiểm chứng được bằng dữ liệu lớn. Ví dụ, các nhà khoa học thường định nghĩa vốn xã hội là những hiểu biết và giá trị được chia sẻ trong một xã hội cho phép các cá nhân làm việc cùng nhau. “Công thức ban đầu của khái niệm này quá mơ hồ để có thể kiểm chứng. Làm sao mà tôi đo lường được nó?”.

Tuy nhiên cũng có những lý thuyết cụ thể hơn. Chuyên nghiên cứu các chuẩn mực xã hội – các quy tắc chung chi phối, quyết định hành vi nào được hoặc không được chấp nhận trong một xã hội, Andrighetto cho rằng các nhà nghiên cứu đã dành một thập kỷ để gắn kết các định nghĩa và lý thuyết cụ thể đó cho chủ đề này. Ví dụ, lý thuyết cho rằng, khi các chuẩn mực xã hội thay đổi sẽ thúc đẩy những thay đổi trong cách một người phản ứng trong một tình huống nhất định. Trước đây, các chuẩn mực xã hội được cho là chỉ thay đổi một cách từ từ thông qua quá trình tương tác xã hội lâu dài. Những lý thuyết có thể kiểm chứng như vậy cho phép Andrighetto kết hợp khoa học tính toán với lý thuyết khoa học xã hội: bà sử dụng các thí nghiệm trực tuyến để kiểm tra xem những thay đổi mang tính mô phỏng về chuẩn mực xã hội có làm ảnh hưởng đến hành vi hay không.

Bà không đơn độc trên hành trình sử dụng khoa học xã hội để tác động vào xã hội. Watts cho biết ông và các nhà nghiên cứu khác thường thích xuất bản bài báo hơn là đưa ra các giải pháp thực tế. “Tôi cảm thấy công việc của mình hoàn thành vào lúc bài báo được xuất bản,” ông nói. “Nhiệm vụ của tôi là nêu những ý tưởng và tạo điều kiện cho người khác tìm ra cách biến chúng thành những biện pháp có ý nghĩa.”

Watts cho biết, để những thay đổi đó xảy ra, các nhà nghiên cứu từ cả hai lĩnh vực phải hợp tác để cùng phát triển. Và hiện tại thì một vài người đã thấy điều đó đang xảy ra. “Khoa học xã hội truyền thống và khoa học xã hội tính toán đang xích lại gần nhau hơn theo thời gian”, Wagner cho biết. “Trong 20 năm tới, chúng sẽ nhập làm một”. □

Hà Trang dịch
Nguồn: https://www.nature.com/articles/d41586-020-01747-1

Tác giả

(Visited 30 times, 1 visits today)