Thống kê có thể và không thể nói gì về chúng ta?

Harold Eddleston, người đàn ông 77 tuổi ở Greater Manchester, vẫn đang quay cuồng với chẩn đoán ung thư vừa được biết thì vào một sáng thứ Bảy tháng Hai năm 1998, nhận được tin tồi tệ nhất: người vợ yêu quý của ông đã mất bất ngờ, sau một cơn đau tim.


Thí nghiệm đồng xu ưa thích của các nhà thống kê. 

Con gái của Eddleston, đã gọi bác sĩ của gia đình, một người đàn ông được kính trọng tại địa phương có tên là Harold Shipman. Shipman đến khám và trò chuyện ân cần riêng với Eddleston, nhưng khi gia đình người bệnh lo lắng hỏi về kết quả chẩn đoán, ông ta thông báo với vẻ nghiêm trọng: “năm nay sẽ không cần phải mua cho ông ấy trứng Phục sinh”. Tới thứ Tư, Eddleston chết; bác sĩ Shipman đã giết ông ấy. 

Harold Shipman là một trong những kẻ giết người hàng loạt nhiều nhất trong lịch sử. Trong 23 năm, y đã tiêm cho ít nhất 215 bệnh nhân những liều chế phẩm có chứa thuốc phiện (opiate) chết chóc. Y bị bắt vào tháng 9/1998, sáu tháng sau khi Eddleston mất.  

Gói những điều bất định vào các con số đơn lẻ 

David Spielgelhalter, tác giả của cuốn sách “The Art of Statistics” (Nghệ thuật của thống kê), là một trong những nhà thống kê được giao nhiệm vụ xác định xem liệu tỉ lệ tử vong của các bệnh nhân của Shipman có gợi lên nghi ngờ từ trước đó hay không. Spiegelhalter đã nhận ra số lượng bệnh nhân của Shipman tử vong quá nhiều so với những bác sĩ thông thường– 174 nữ và 59 nam. 

Nhưng về mặt thống kê, tới ngưỡng nào thì nhiều cái chết chuyển thành quá nhiều cái chết? làm thế nào để phân biệt một sự kiện bất thường đáng ngờ với một chuỗi những điều không may? Cũng như vậy, làm sao chúng ta có thể dự đoán số người sẽ tử vong? Mỗi cái chết đều liên quan tình cảnh của mỗi cá nhân, chuyện riêng, và nhiều nguyên do; gói gọn tất cả những điều bất định đó vào trong một con số đơn lẻ thì có nghĩa lý gì? 

Năm 1825, Bộ Tư pháp Pháp đã yêu cầu tạo ra một tuyển tập hồ sơ tội phạm quốc gia. Dường như đó là kiểu tuyển tập hồ sơ đầu tiên trên thế giới – thống kê mọi vụ bắt bớ và kết án trên khắp đất nước, theo vùng miền, được tổng hợp lại và sẵn sàng để phân tích. Đó là ví dụ sơ khai về Dữ liệu Lớn – lần đầu tiên phân tích toán học được áp dụng vào dự đoán địa hạt rối rắm và khó lường của hành vi con người. 

Đầu những năm 1830, một nhà thiên văn học, toán học người Bỉ, Adolphe Quetelet đã phân tích những con số và nhận ra một hình mẫu đáng chú ý. Hồ sơ tội phạm cho thấy một quy luật đáng chú ý: số lượng các vụ tội phạm qua các năm đều nhất quán đến sửng sốt. 

Quetelet phát triển ý tưởng về lý thuyết “Cơ chế xã hội” (Social Physics), và bắt đầu khám phá khả năng về một cơ chế, quỹ đạo ẩn sau đời sống con người: ở mức nào đó, có thể dự đoán và lượng hóa đời sống con người. Giờ đây chúng ta có thể dự đoán, với độ chính xác ấn tượng, số phụ nữ ở Đức sẽ lựa chọn mang bầu mỗi năm, số vụ tai nạn ôtô ở Canada, số vụ tai nạn máy bay ở khắp Nam bán cầu, thậm chí số người sẽ tới phòng cấp cứu của thành phố New York vào một buổi tối thứ Sáu nữa. 

Dự đoán về cá nhân từ đặc tính tập thể có thể sẽ sai?

Tuy nhiên, đưa ra các dự đoán về cá nhân từ đặc tính tập thể có thể sẽ sai. Có thể nhìn vào ví dụ của luật sư người Pháp  André-François Raffray năm 1965. Ông đồng ý trả một cụ bà 90 tuổi 25 franc mỗi tháng cho tới khi bà cụ mất, đổi lại ông sẽ sở hữu căn hộ của bà ở Arles. Vào thời điểm đó, tuổi thọ trung bình kỳ vọng của phụ nữ Pháp là 74,5, và không nghi ngờ gì, Raffray, khi đó 54 tuổi, nghĩ rằng mình đã điều đình được một hợp đồng có lợi. Không may cho ông, cụ bà đó là Jeanne Calment đã sống tiếp 32 năm sau khi hợp đồng của họ được ký kết, còn lâu hơn Raffray, người mất ở tuổi 77. Tính tới khi đó, ông đã trả gấp đôi giá thị trường cho một căn hộ mà ông chưa từng sống trong đó. 

Raffray đã mắc sai lầm khi tưởng rằng có thể dự đoán về tương lai một ai đó dựa trên dữ liệu trung bình của cả cộng đồng. Như nhà toán học Ian Stewart đã chỉ ra trong cuốn “Do Dice Play God?”, căn cứ theo số liệu trung bình thì mỗi người đều có một vú và một tinh hoàn. Trong các nhóm lớn, sự biến thiên tự nhiên giữa các cá thể tự động trung hòa nhau, nhưng sự biến thiên này khiến chúng ta không thể nói chắc chắn về từng cá nhân – một sự thực với nhiều hệ quả sâu rộng. 

David Spiegelhalter bàn thêm là mỗi ngày hàng triệu người nuốt một viên statin nhỏ màu trắng để giảm nguy cơ đau tim và đột quỵ. Nếu bạn là một trong số những người đó, và tiếp tục sống thọ và vui vẻ  mà không bị đau tim bao giờ, bạn sẽ không bao giờ biết liệu viên statin của bạn đã có hiệu quả hay ngay từ đầu bạn không bao giờ bị đau tim. Với một nghìn người uống statin trong vòng 5 năm, thuốc sẽ chỉ giúp 18 người tránh khỏi một cơn trụy tim hay đột quỵ. Và nếu thấy mình bị đau tim thì bạn cũng không bao giờ biết được có phải nó bị statin làm chậm lại hay không. 

Đó là quy tắc với các thuốc phòng ngừa: với hầu hết các cá nhân, phần lớn những thuốc này không có tác dụng gì cả. Thực tế rằng lý do chúng đáng được dùng là chúng tạo ra một ích lợi tổng thể cho cả cộng đồng.

Có quá nhiều điều chúng ta không biết, ở mức cá nhân: tại sao một số người có thể hút thuốc mà không bị ung thư phổi; tại sao một trong hai người sinh đôi vẫn khỏe mạnh trong khi người còn lại lại mắc chứng ALS (xơ cứng teo cơ một bên); tại sao một số trẻ em giống nhau lại xuất sắc ở trường học trong khi số khác chuệch choạc. Mặc cho những hứa hẹn lớn lao về khả năng khai thác Dữ liệu lớn để đưa ra các dự đoán thì đời sống của một con người cụ thể vẫn vô cùng khó lường. 

Tuy nhiên, các nhà thống kê đã tìm được con đường dẫn tới sự chắc chắn tối đa trong một thế giới bất định. Có lẽ chúng ta không thể trả lời những câu hỏi dớ dẩn gây lúng túng, như “Tôi sẽ thọ bao nhiêu tuổi?”, nhưng người ta có thể giải quyết những câu hỏi như “Bao nhiêu bệnh nhân chết thì là quá nhiều?”.

Trong quá trình này, một ý tưởng mạnh mẽ đã nảy sinh để tạo thành cơ sở của nghiên cứu khoa học hiện đại. 
Một người lạ đưa cho bạn một đồng xu. Bạn ngờ rằng nó đã bị sửa đi thế nào đó, có lẽ là để mặt ngửa xuất hiện nhiều hơn. Bạn tung đồng xu hai lần và nhận được hai mặt ngửa liên tiếp. Một đồng xu chuẩn hoàn hảo sẽ cho kết quả hai mặt ngửa liên tiếp với tỉ lệ 25% – một xác suất được biết đến dưới tên gọi giá trị p. Bạn tiếp tục tung và lại nhận được mặt ngửa tiếp. Và lại một lần nữa. Chuyện dần có vẻ ám muội, nhưng ngay cả khi bạn tung đồng xu 1000 lần, hay 1 triệu lần, trên lý thuyết bạn không bao giờ tuyệt đối chắc rằng nó đã bị sửa. Xác suất có thể rất nhỏ, nhưng về lý thuyết, một đồng xu chuẩn có thể tạo ra một tổ hợp mặt ngửa bất kỳ. 


Bức tranh Cái chết của thần Baldur [The Death of Baldur], Christoffer Wilhelm Eckersberg, 1817. Trong thần thoại Bắc Âu, thần Baldur nằm mộng thấy mình bị giết, Frigg mẹ của thần Baldur liền yêu cầu mọi loài sinh vật phải thề không được làm hại con bà nhưng không nghĩ một cây tầm gửi vô hại mọc trên cây sồi có thể làm hại con mình nên không bắt cây tầm gửi phải thề. Cuối cùng, Baldur bị chết bởi một mũi tên tầm gửi. Nguồn: Vox. 

Ngưỡng đáng để nghi ngờ – khái niệm “ý nghĩa thống kê” được thiết lập

Các nhà khoa học đã chọn một lối đi giữa tất cả những bất định này bằng cách đặt ra một ngưỡng tùy ý, và chấp thuận rằng bất cứ thứ gì vượt ngưỡng đó sẽ cho bạn các lý do để nghi ngờ. Kể từ năm 1925, khi nhà thống kê người Anh Ronald Fisher lần đầu tiên đề xuất quy ước này, ngưỡng kia thường được đặt ở mức 5%. Bạn đang thấy một số lượng mặt ngửa đáng ngờ, và một khi xác suất một đồng xu chuẩn hiện ít nhất cũng nhiều mặt ngửa như bạn từng thấy dưới 5%, bạn có thể bỏ thái độ vô tư của mình cho tới khi chứng minh được tội lỗi. Trong trường hợp này, 5 mặt ngửa liên tiếp, với giá trị p là 3,125%, sẽ cho thấy điều đó. 

Đây là nguyên lý nền tảng để khoa học hiện đại đưa ra các kết luận của mình. Khi chúng ta chỉ ra bằng chứng về biến đổi khí hậu hay khi quyết định xem liệu một loại thuốc có tác dụng hay không thì đều cùng áp dụng theo một nguyên lý. Nếu các kết quả là quá bất thường để xảy ra nhờ ngẫu nhiên – chí ít, không hơn một trong 20 lần – bạn có lý do để nghĩ rằng giả thuyết của mình đã được chứng minh. Khái niệm “Ý nghĩa thống kê” đã được thiết lập. 
Có thể ví dụ bằng cách xem lại một thử nghiệm lâm sàng về tác dụng của aspirin trong việc chữa đau tim, do nhà dịch tễ học ở Oxford Richard Peto thực hiện năm 1988. 

Thử nghiệm của họ có tới 17.187 người tham gia và đã cho thấy hiệu quả đáng chú ý. Trong một nhóm được dùng giả dược, 1016 bệnh nhân chết; với những người được dùng aspirin, chỉ có 804 người chết. Con số này vượt ngưỡng; nhóm nghiên cứu đã kết luận rằng aspirin có tác dụng. 

Những phương pháp thống kê như vậy đã trở thành công cụ phổ biến trong nghiên cứu hiện đại. Chúng giúp chúng ta tiến những bước dài, để tìm kiếm các tín hiệu trong dữ liệu đầy nhiễu loạn. Nhưng, trừ phi bạn cực kỳ thận trọng, việc thử xóa bỏ những yếu tố tất định cũng có các điểm bất lợi. Nhóm của Peto đã gửi những kết quả thử nghiệm của mình cho một tạp chí y học có tiếng, và nhận lại một yêu cầu từ người bình duyệt: có thể chia những kết quả này thành các nhóm không? có bao nhiêu người phụ nữ đã được aspirin cứu, bao nhiêu đàn ông, bao nhiêu người mắc tiểu đường, bao nhiêu người ở độ tuổi này hay kia, v.v. 


Cuốn sách “The Art of Statistics” (Nghệ thuật của thống kê).

Peto phản đối. Bằng cách chia nhỏ bức tranh toàn cảnh, bạn đưa tất cả những kiểu bất định vào kết quả, ông lập luận. Một lý do là, kích thước của nhóm thử nghiệm càng nhỏ, xác suất may mắn càng lớn. Sẽ thật “ngu ngốc về mặt khoa học”, khi đưa ra những kết luận từ bất cứ thứ gì khác ngoài bức tranh toàn cảnh, ông nhận xét. Tạp chí cứ khăng khăng, nên Peto đã dao động. Ông gửi lại bài báo với tất cả những nhóm nhỏ mà người bình duyệt yêu cầu, nhưng với một sự bổ sung ranh mãnh. Ông cũng chia nhỏ các kết quả theo các cung hoàng đạo. Thật tình cờ, aspirin có tác dụng ở một số nhóm lớn hơn ở các nhóm còn lại: trong nghiên cứu này, dường như aspirin không có tác dụng với cung Thiên Bình và Song Tử, nhưng làm giảm nguy cơ tử vong của bạn xuống một nửa nếu bạn thuộc cung Ma Kết. 

Sử dụng các nhóm đủ lớn có thể giúp đảm bảo không tình cờ gặp may, nhưng còn có một cạm bẫy khác trực chờ các nhà khoa học thiếu hoài nghi. Đó là điều mà thử nghiệm của Peto cũng nhấn mạnh, và là cái dẫn đến một cuộc khủng hoảng ở cốt lõi của khoa học. 

Cẩn thận với “những thất thường của sự ngẫu nhiên”

Cách dễ nhất để hiểu vấn đề là trở lại với nan đề về đồng xu không chuẩn (đồng xu luôn là ví dụ ưa thích của các nhà thống kê). Giả như bạn đặc biệt không thích đưa ra một kết luận sai, và quyết định tin vào giả thuyết đồng xu là chuẩn trừ phi bạn nhận được mặt ngửa 20 lần liên tiếp. Một đồng xu chuẩn sẽ chỉ làm được như vậy một trong một triệu lần, nên đây là mức yêu cầu chứng minh cực kỳ cao – vượt rất xa ngưỡng 5% mà nhiều khoa học sử dụng.  Như vậy, nếu bạn đưa các đồng xu bình thường cho ba trăm triệu người Mỹ tung lên, thì chúng ta dự kiến sẽ có khoảng ba trăm người nhận được 20 mặt ngửa liên tiếp, và họ buộc phải căn cứ theo luật chơi của bạn để kết luận rằng đồng xu bạn đưa là không chuẩn. Có nghĩa là, dù ngưỡng bạn đặt ra có khắt khe tới đâu thì cuối cùng vẫn có thể xảy ra trường hợp cực đoan nếu bạn lặp lại thí nghiệm rất nhiều lần.

Apple đã học được điều này không lâu sau khi iPod Shuffle được ra mắt. Chiếc máy này sẽ chơi ngẫu nhiên các bản nhạc từ thư viện của người dùng, nhưng Apple nhận thấy nó phải chịu đầy những lời phàn nàn của người dùng, rằng họ nhận thấy chiếc Shuffle của mình chơi các bản nhạc theo một quy luật nào đó. Các quy luật xảy ra thường xuyên hơn chúng ta nghĩ rất nhiều, nhưng ngay cả nếu vài bản nhạc của cùng một nghệ sĩ, hay các bản nhạc liên tiếp từ một album chỉ có xác suất xuất hiện liên tiếp trong danh sách rất nhỏ, thì vẫn có quá nhiều người nghe iPod tới mức không thể tránh khỏi những trùng hợp lạ lùng xảy ra. 

Trong khoa học, các tình huống trở nên gay cấn hơn, và những gì được mất cũng lớn hơn. Với một ngưỡng chỉ 5%, một trong 20 nghiên cứu sẽ tìm thấy bằng chứng về những hiện tượng không tồn tại trong dữ liệu của nó. Đó là một lý do khác mà Peto đã chống lại đề xuất rằng ông phải chia ra nhiều nhóm nhỏ: số lượng nhóm bạn chia ra quan sát càng nhiều, khả năng nhìn thấy những hiệu ứng giả càng cao. Đây không chỉ là mối quan ngại lý thuyết. Trong y học, một nghiên cứu về 49 công bố y học được trích dẫn nhiều nhất từ 1990 tới 2003 phát hiện ra rằng 16% các kết luận trong đó mâu thuẫn với các nghiên cứu sau này. Tâm lý học là lĩnh vực tệ nhất trong những khảo sát này (có thể là vì tái kiểm chứng những nghiên cứu này rẻ hơn). Một nghiên cứu năm 2015 phát hiện ra rằng tái kiểm chứng 100 thử nghiệm tâm lý học thì chỉ 36 thử nghiệm cho các kết quả nhất quán với kết quả nghiên cứu ban đầu, mặc dù 97% các nghiên cứu ban đầu đã báo cáo một giá trị p dưới ngưỡng 5%. 

Giờ đây người ta nhận ra nhiều nghiên cứu nổi tiếng đã dựa trên những kết quả sai lệch một cách tình cờ như thế. Điển hình như nghiên cứu về tạo dáng mạnh mẽ (power posing), vốn đặt ra giả thuyết rằng việc đứng theo một tư thế mạnh mẽ sẽ giúp giảm hoóc-môn căng thẳng trong cơ thể. Nghiên cứu này được trích dẫn một nghìn lần, và bài nói chuyện về nó trên TED talk có hơn 50 triệu lượt xem, nhưng nghiên cứu đó lại không tái kiểm chứng được và giờ đây được coi là một ví dụ nổi bật cho các sai sót trong các phương pháp của Fisher. 

Vấn đề này bị trầm trọng thêm trong kỷ nguyên Dữ liệu lớn. Dữ liệu càng được thu thập, tham chiếu chéo, và nghiên cứu nhiều để tìm các mối tương quan, càng dễ để đưa ra những kết luận sai lầm. Để minh họa cho quan điểm này, Spiegelhalter đã kể thêm về một nghiên cứu thực hiện năm 2009 trong đó các nhà nghiên cứu đưa một đối tượng vào máy chụp cộng hưởng từ chức năng và phân tích phản ứng ở 8064 khu vực trong não trong khi trình chiếu một loạt các bức ảnh về biểu hiện khác nhau của con người. Các nhà khoa học muốn xem vùng não nào sáng lên khi phản ứng với các bức ảnh và sử dụng một ngưỡng 0,01% cho thí nghiệm của mình. “Điểm lắt léo là ‘đối tượng’ ở đây là một con cá hồi Đại Tây Dương nặng 1,6kg vốn ‘đã không còn sống sót tại thời điểm chụp,’” Spiegelhalter lưu ý. 

Nhưng thậm chí ở ngưỡng đó, việc chạy đủ các thí nghiệm cuối cùng vẫn khiến bạn có cảm giác vượt ngưỡng. Với hơn 8000 khu vực trong não của một con cá chết các nhà nghiên cứu đang xét, 16 khu vực cho thấy phản ứng có ý nghĩa thống kê. Điều này có nghĩa là, nếu cứ yên tâm dựa vào “ý nghĩa thống kê”, người ta có thể ngộ nhận tin vào những kết quả khoa học vô căn cứ tương tự như vậy. Khoa học luôn là đối tượng cho sự kiểm chứng kỹ lưỡng, nhưng cuộc khủng hoảng giá trị p cho thấy các phương thức kiểm chứng hiện hành vẫn cần phải được cải thiện. 


Trong các nền văn minh, con người hay sợ những “điềm gở” như gặp mèo đen, gương vỡ, thứ sáu ngày 13… Nó chỉ là ngẫu nhiên hay có “ý nghĩa thống kê”?

Giờ đây các nhà khoa học nói rằng các nhà nghiên cứu nên tuyên bố giả thuyết của mình từ trước khi tiến hành một nghiên cứu để hạn chế cách làm khoa học theo lối mò mẫm lựa chọn giả thuyết sao cho khớp nhất với kết quả thống kê. Đa số cũng cho rằng cần chú trọng hơn nữa các nghiên cứu được thiết kế để kiểm chứng công trình của người khác. Nhiều người cho rằng khoa học nên quan tâm đến mức độ ảnh hưởng – chẳng hạn như bao nhiêu sinh mạng được một loại thuốc cứu – thay vì chỉ chú trọng xem dữ liệu do một hiệu ứng nào đó có vượt một ngưỡng thống kê nào đấy hay không. Như với ví dụ về aspirin. Một nghiên cứu khổng lồ –theo dõi 22.000 cá nhân trong vòng 5 năm – đã chứng minh rằng việc dùng một lượng thuốc nhỏ mỗi ngày sẽ làm giảm nguy cơ đau tim. Giá trị p, xác suất của việc vẫn để xảy ra đau tim hay hệ lụy ngẫu nhiên nào đó cực đoan hơn xảy ra, là cực kỳ nhỏ: 0,001%. Nhưng mức độ ảnh hưởng tích cực của thuốc thực ra cũng rất khiêm tốn. Với quy mô mẫu như vậy, sẽ có một trăm ba mươi cá nhân vốn dĩ khỏe mạnh sẽ phải dùng thuốc để phòng ngừa một cơn đau tim, và trong suốt một thời gian mỗi người sẽ chịu thêm nguy cơ về tác dụng phụ có hại của thuốc. Đó là nguy cơ mà giờ đây được coi là vượt quá lợi ích cho hầu hết mọi người, và lời khuyên những người lớn sử dụng một viên aspirin của trẻ con mỗi ngày đã bị rút lại một cách công khai. 

Nhưng có lẽ vấn đề thực sự là việc chúng ta thấy khó nắm bắt sự bất định đến thế nào. Đầu năm 2019, 850 nhà nghiên cứu nổi tiếng, bao gồm cả David Spiegelhalter, đã ký một thư thỉnh nguyện gửi lên tạp chí Nature lập luận rằng vấn đề không thể giải quyết được bằng một giải pháp kỹ thuật tạm thời. Giá trị p không phải vấn đề; vấn đề là nỗi ám ảnh của chúng ta với việc đặt ra một ngưỡng an toàn. 

Việc vạch ra một ranh giới tùy ý tạo ra một ảo tưởng rằng chúng ta có thể biệt giữa đúng và sai. Nhưng các kết quả của một thí nghiệm phức tạp không thể được rút gọn về một câu trả lời có-hay-không. Quay trở lại khi Spiegelhalter được yêu cầu xác định xem liệu có nên nghi vấn về bác sĩ Harold Shipman từ sớm hơn căn cứ trên tỉ lệ bệnh nhân tử vong, ông đã nhanh chóng quyết định rằng phép kiểm định độ tin cậy thống kê sẽ là cách “cực kỳ không phù hợp” để giám sát các bác sĩ. Ngành y tế sẽ quy kết oan các bác sĩ vô tội với tỉ lệ 1/20 – nghĩa là ảnh hưởng tới hàng nghìn thầy thuốc lâm sàng ở Anh. Các bác sĩ sẽ bị quy kết oan chỉ vì họ điều trị cho các bệnh nhân có nguy cơ tử vong cao. 

Thay vào đó, Spiegelhalter và các đồng nghiệp đề xuất một phép thử khác, chú ý tới cái chết của nạn nhân khi chúng xảy ra, đối chiếu số lượng tử vong tích lũy qua các năm so với một con số trung bình dự kiến. Năm này qua năm khác, nó so sánh khả năng tỉ lệ tử vong cao của bệnh nhân của một bác sĩ như một chuỗi rủi ro với khả năng do nguyên nhân nào đó đáng ngờ hơn, và cảnh báo khi các bằng chứng bắt đầu xuất hiện. Nhưng ngay cả phương pháp rất phức tạp này cũng sẽ, do những thất thường của sự ngẫu nhiên, cuối cùng hướng sự nghi ngờ tới người vô tội. Thật vậy, ngay khi một hệ thống giám sát những người thầy thuốc được triển khai, nó “ngay lập tức phát hiện một thầy thuốc với tỉ lệ tử vong cao hơn Shipman,” Spiegelhalter viết. Đó là người bác sĩ thiếu may mắn làm việc ở một thành phố ven biển với cộng đồng dân cư lớn tuổi. Kết quả này làm nổi bật sự thận trọng bạn cần phải có ngay cả đối với những phương pháp thống kê tốt nhất. Nói như Spiegelhalter, trong khi thống kê có thể tìm ra những yếu tố ngoại lệ, thì nó lại “không thể cung cấp các lý do tại sao những điều này lại xảy ra, nên cần được bổ sung cẩn thận để tránh những cáo buộc sai lầm.”□

Hoàng Mai lược dịch
https://www.newyorker.com/magazine/2019/09/09/what-statistics-can-and-cant-tell-us-about-ourselves

Tác giả