Xác suất có lẽ không tồn tại

Toàn bộ ngành thống kê và hầu hết các ngành khoa học đều phụ thuộc vào xác suất – một thành tựu kinh ngạc, khi xét tới việc không ai biết chắc nó là gì.

Xác suất theo quan điểm tần suất – ví dụ như phim Ngày Chuột Chũi (Groundhog Day) về cơ bản là không thực tế.

Cuộc sống thật bất định. Không ai trong chúng ta biết điều gì sẽ xảy ra. Chúng ta biết rất ít về những gì diễn ra trong quá khứ hoặc đang diễn ra bên ngoài trải nghiệm trực tiếp của mình. Sự bất định từng được gọi là “sự tự ý thức về những điều mình không biết” — dù đó là về thời tiết ngày mai, nhà vô địch tiếp theo của giải Ngoại hạng Anh, khí hậu vào năm 2100 hay danh tính của tổ tiên cổ đại của chúng ta.

Trong đời sống hằng ngày, chúng ta vẫn thường nói về sự bất định, dự cảm về một sự việc “có thể”, “có lẽ” hoặc “có khả năng” sẽ (hoặc từng) xảy ra. Tuy nhiên, những từ ngữ bất định này có thể phản bội lại chúng ta. Năm 1961, khi Tổng thống Mỹ mới đắc cử John F. Kennedy được báo cáo về một kế hoạch do CIA hậu thuẫn nhằm xâm lược đất nước cộng sản Cuba, ông đã yêu cầu các lãnh đạo quân sự đánh giá kế hoạch này. Họ kết luận rằng nhiệm vụ chỉ có 30% cơ hội thành công – tức là 70% khả năng thất bại. Tuy nhiên, trong báo cáo gửi đến tổng thống, kết luận này được diễn đạt là “có cơ hội khá tốt”. Cuộc xâm lược Vịnh Con Lợn vẫn diễn ra và thất bại thảm hại. Ngày nay, người ta đã thiết lập các thang đo để chuyển đổi từ ngữ diễn tả sự bất định thành các con số ước lượng. Chẳng hạn, bất kỳ ai trong cộng đồng tình báo Anh sử dụng thuật ngữ “có khả năng” đều phải hiểu đó là xác suất nằm trong khoảng từ 55% đến 75%.

Những nỗ lực đưa các con số vào đánh giá cơ hội và sự bất định đã dẫn chúng ta đến lĩnh vực toán học của xác suất, thứ hiện nay được sử dụng rộng rãi trong vô số lĩnh vực. Nếu mở bất kỳ tạp chí khoa học nào, bạn sẽ thấy các bài báo tràn ngập các giá trị P, khoảng tin cậy và thậm chí cả phân bố hậu nghiệm Bayes, tất cả đều dựa trên xác suất.


Những nỗ lực đưa các con số vào đánh giá cơ hội và sự bất định đã dẫn chúng ta đến lĩnh vực toán học của xác suất, thứ hiện nay được sử dụng rộng rãi trong vô số lĩnh vực.

Tuy nhiên, tôi cho rằng bất kỳ con số xác suất nào – dù xuất hiện trong một bài báo khoa học, một dự báo thời tiết, một dự đoán kết quả thể thao hay một ước lượng rủi ro sức khỏe – đều không phải là một thuộc tính khách quan của thế giới, mà là một thứ được xây dựng dựa trên đánh giá cá nhân hoặc tập thể cùng với những giả định (thường là không chắc chắn). Hơn nữa, trong hầu hết các tình huống, thậm chí nó không thể hiện một giá trị “thực” nào. Thực tế, xác suất hiếm khi có thể được coi là một thứ thực sự ‘tồn tại’. 

Kẻ xâm nhập tình cờ

Xác suất là lĩnh vực xuất hiện tương đối muộn màng trong toán học. Mặc dù con người đã đánh bạc bằng việc tung các khối đa diện và xúc xắc trong hàng thiên niên kỷ, nhưng phải đến những năm 1650, khi hai nhà toán học người Pháp Blaise Pascal và Pierre de Fermat bắt đầu trao đổi thư từ, mới có một phân tích chặt chẽ về các sự kiện ngẫu nhiên. Giống như một con đập chịu dồn nén bị phá vỡ, kể từ đó, xác suất đã tràn vào các lĩnh vực đa dạng như tài chính, thiên văn học và luật – chưa kể đến cờ bạc. 

Để hiểu rõ hơn về sự khó nắm bắt của xác suất, hãy xem xét cách khái niệm này được sử dụng trong các dự báo thời tiết hiện đại. Các nhà khí tượng học đưa ra dự đoán về nhiệt độ, tốc độ gió và lượng mưa, đồng thời thường đưa ra xác suất có mưa – chẳng hạn 70% cho một thời điểm và địa điểm cụ thể. Ba yếu tố đầu tiên có thể so sánh với giá trị thực tế của chúng; bạn có thể ra ngoài và đo lường chúng. Nhưng không có một “xác suất thực” nào để so sánh với đánh giá của nhà dự báo thời tiết. Không có “máy đo xác suất”. Trời hoặc mưa, hoặc không mưa. 

Hơn nữa, như triết gia Ian Hacking đã nhấn mạnh, xác suất có tính chất “hai mặt” như thần Janus: nó xử lý sự ngẫu nhiên và cả sự chưa biết. Hãy tưởng tượng tôi tung một đồng xu và hỏi bạn xác suất để mặt ngửa xuất hiện. Bạn có thể dễ dàng trả lời “50–50”. Nhưng nếu tôi tung đồng xu, nhìn lướt qua kết quả rồi che lại và tiếp tục hỏi: bây giờ hãy nói xác suất mặt ngửa xuất hiện của bạn?

Lưu ý rằng tôi nói “xác suất của bạn”, chứ không phải “xác suất”. Hầu hết mọi người sẽ do dự trước khi miễn cưỡng lặp lại “50–50”. Nhưng sự việc đã xảy ra rồi, không còn gì ngẫu nhiên nữa – chỉ còn “sự chưa biết” của bạn. Tình huống đã chuyển từ sự bất định mang tính ngẫu nhiên, tức là về tương lai mà ta không thể biết, sang sự bất định mang tính nhận thức, tức là về điều mà ta chưa biết ở hiện tại. Hai trường hợp này đều cùng sử dụng một xác suất số.

Ở đây còn có một bài học khác. Ngay cả khi có một mô hình thống kê để dự đoán kết quả, mô hình này vẫn dựa trên các giả định mang tính chủ quan – chẳng hạn, trong trường hợp tung đồng xu với xác suất xuất hiện mỗi mặt đều như nhau. Để minh họa điều này với khán giả, đôi khi tôi sử dụng một đồng xu có hai mặt giống nhau, qua đó cho thấy ngay cả quan điểm ban đầu của họ về “50–50” cũng chỉ dựa trên niềm tin vào tôi. Mà tin tưởng mù quáng có thể là một quyết định liều lĩnh.

Tính chủ quan và khoa học

Luận điểm của tôi là bất kỳ ứng dụng thực tế nào của xác suất đều liên quan đến đánh giá chủ quan. Điều đó không có nghĩa là tôi có thể gán bừa một con số vào suy nghĩ của mình – tôi sẽ thể hiện mình là kẻ ước lượng tồi nếu dám khẳng định với xác suất 99.9% rằng mình có thể bay từ mái nhà xuống. Người ta bắt đầu quan tâm đến thế giới khách quan khi xác suất và các giả định của nó được kiểm chứng trong thực tế; nhưng điều đó không có nghĩa là bản thân xác suất có tính khách quan.

Khi ước lượng xác suất thì một số giả định có cơ sở vững chắc hơn những giả định khác. Nếu tôi đã kiểm tra kỹ một đồng xu trước khi tung, và đồng xu đó rơi xuống bề mặt cứng rồi nảy tung tóe lên, tôi sẽ cảm thấy tự tin hơn khi cho rằng xác suất 50–50 là hợp lý, so với trường hợp một kẻ đáng ngờ rút ra một đồng xu và tung nó một cách hời hợt. Nhưng những giả định chặt chẽ này không chỉ áp dụng trong đời sống hàng ngày mà còn trong các bối cảnh khoa học, nơi, một cách tự nhiên, chúng ta tin tưởng hơn vào tính khách quan của xác suất.


Người ta bắt đầu quan tâm đến thế giới khách quan khi xác suất và các giả định của nó được kiểm chứng trong thực tế; nhưng điều đó không có nghĩa là bản thân xác suất có tính khách quan.

Đây là một ví dụ có ý nghĩa khoa học và cộng đồng thực sự quan trọng. Ngay sau khi đại dịch COVID-19 bùng phát, các thử nghiệm RECOVERY đã được khởi động để đánh giá hiệu quả của các liệu pháp điều trị đối với những bệnh nhân nhập viện tại Vương quốc Anh. Trong một thử nghiệm, hơn 6.000 bệnh nhân được phân bổ ngẫu nhiên để nhận hoặc phương pháp điều trị tiêu chuẩn của bệnh viện, hoặc cũng phương pháp đó cộng thêm một liều dexamethasone – một loại steroit giá rẻ. Kết quả cho thấy, trong nhóm bệnh nhân phải thở máy, nguy cơ tử vong hằng ngày (đã được phân loại theo độ tuổi) của nhóm sử dụng dexamethasone thấp hơn 29% ở nhóm chỉ nhận điều trị tiêu chuẩn (khoảng tin cậy 95% từ 19% đến 49%). Giá trị P – xác suất tính toán được của việc quan sát rủi ro tương đối này, với giả thuyết-không rằng không có sự khác biệt cơ bản nào trong nguy cơ – được xác định là 0,0001, tức 0,01%.

Tất cả đều là phân tích tiêu chuẩn. Nhưng mức độ tin cậy cụ thể và giá trị P không chỉ dựa vào giả định về giả thuyết-không. Chúng còn phụ thuộc vào toàn bộ những giả định trong mô hình thống kê, chẳng hạn như các quan sát có tính độc lập: tức là không có yếu tố nào khiến những người được điều trị gần nhau theo địa điểm và thời gian có kết quả giống nhau hơn. Nhưng thực tế có rất nhiều yếu tố như vậy, từ bệnh viện nơi bệnh nhân điều trị đến sự thay đổi trong phác đồ chăm sóc. Giá trị xác suất thực cũng dựa trên giả định rằng tất cả bệnh nhân trong mỗi nhóm có cùng một xác suất cơ bản để sống sót sau 28 ngày. Nhưng điều này có thể khác nhau vì rất nhiều lý do.

Nhà toán học Frank Ramsey. Ảnh: https://www.stephenburch.com/

Không nhất thiết là những giả định sai này khiến phân tích bị sai lệch. Trong trường hợp này, kết quả đã quá mạnh tới mức kể cả dùng một mô hình khác cho phép thay đổi những điều kiện giữa các bệnh nhân, kết luận tổng thể vẫn không thay đổi đáng kể. Tuy nhiên, nếu kết quả “mấp mé” hơn, người ta sẽ cần phân tích kĩ lưỡng độ nhạy của mô hình đối với các giả định thay thế. 

Vận dụng câu châm ngôn nổi tiếng: “Mọi mô hình đều sai, nhưng một số mô hình có ích”, phân tích thử nghiệm dexamethasone nói trên có ý nghĩa to lớn vì kết luận chắc chắn của nó đã làm thay đổi thực hành lâm sàng và cứu sống hàng trăm nghìn người. Nhưng các xác suất làm nền tảng cho kết luận đó lại không “thực” – chúng là sản phẩm của những giả định và đánh giá mang tính chủ quan, tuy rằng hợp lý.

Đi sâu vào nan đề

Vậy phải chăng những con số này, sau đó là ước lượng chủ quan và có thể sai lầm của chúng ta về một xác suất “thực” nào đó, là bản chất khách quan của thế giới? 

Tôi sẽ lưu ý rằng tôi không bàn về thế giới lượng tử. Ở cấp độ hạ nguyên tử, toán học chỉ ra rằng các sự kiện không có nguyên nhân có thể xảy ra với xác suất cố định (mặc dù ít nhất có một cách diễn giải cho rằng ngay cả những xác suất đó cũng chỉ thể hiện mối quan hệ giữa các đối tượng hoặc người quan sát, chứ không phải là thuộc tính nội tại của các hạt lượng tử). Nhưng đồng thời, dường như điều này không có ảnh hưởng đáng kể đến các hiện tượng quan sát được trong thế giới vĩ mô.

Tôi cũng tránh đề cập đến những tranh luận kéo dài hàng thế kỷ về việc liệu thế giới ở cấp độ phi lượng tử, về cơ bản là xác định, và liệu con người có ý chí tự do để tác động đến tiến trình của các sự kiện hay không. Bất kể câu trả lời là gì, chúng ta vẫn cần xác định chính xác thế nào là một xác suất khách quan.

Nhiều nỗ lực giải thích đã diễn ra trong bao năm qua, nhưng tất cả dường như đều có sai sót hoặc bị giới hạn. Một trong số đó, xác suất theo quan điểm tần suất, một cách tiếp cận định nghĩa tỷ lệ lý thuyết của các sự kiện sẽ xảy ra trong vô số lần lặp lại của những tình huống về cơ bản giống hệt nhau – ví dụ, lặp lại cùng một thử nghiệm lâm sàng trong cùng một quần thể với cùng một điều kiện hết lần này đến lần khác, như trong phim Ngày Chuột Chũi (Groundhog Day). Điều này có vẻ không thực tế. Nhà thống kê người Anh Ronald Fisher thì đề xuất hình dung về mỗi tập dữ liệu độc bản là một mẫu trong một quần thể vô hạn mẫu giả định, nhưng điều này giống như một thí nghiệm tưởng tượng hơn là một thực tế khách quan. Hoặc có một ý tưởng bán thần bí về khuynh hướng cho rằng có một xu hướng thực sự nào đó khiến một sự kiện cụ thể xảy ra trong một bối cảnh nhất định, chẳng hạn như việc tôi bị đau tim trong 10 năm tới. Điều này hầu như không thể kiểm chứng trong thực tế.

Có một số ít tình huống được kiểm soát chặt chẽ và có thể lặp lại với độ phức tạp cực lớn đến mức, ngay cả khi về bản chất là tất định, chúng vẫn phù hợp với quan điểm tần suất vì có phân bố xác suất với các tính chất dự đoán được trong dài hạn. Những tình huống này bao gồm các thiết bị ngẫu nhiên hóa chuẩn mực, chẳng hạn như vòng quay roulette, bộ bài được trộn, đồng xu được tung, xúc xắc và bóng xổ số, cũng như các bộ tạo số giả ngẫu nhiên, vốn dựa trên các thuật toán phi tuyến tính hỗn loạn để tạo ra các số vượt qua các bài kiểm tra tính ngẫu nhiên.

Trong thế giới tự nhiên, chúng ta cũng có thể xem xét chuyển động của các phân tử khí lớn, ngay cả khi tuân theo cơ học Newton, nhưng vẫn tuân theo các định luật của cơ học thống kê; và di truyền học, nơi mà sự phức tạp khủng khiếp của quá trình chọn lọc và tái tổ hợp nhiễm sắc thể tạo ra các tỷ lệ di truyền ổn định. Trong những trường hợp giới hạn này, có thể hợp lý khi giả định một xác suất giả khách quan – xác suất cụ thể thay vì chỉ là ‘một’ xác suất mang tính chủ quan.

Tuy nhiên, trong tất cả các tình huống khác mà xác suất được sử dụng – từ khoa học, thể thao, kinh tế, thời tiết, khí hậu, phân tích rủi ro, mô hình thảm họa, v.v. – sẽ không hợp lý nếu nghĩ rằng những đánh giá của chúng ta là ước lượng về các xác suất “thực”. Chúng chỉ đơn thuần là những tình huống mà chúng ta cố gắng biểu đạt sự bất định cá nhân hoặc tập thể của mình bằng xác suất, dựa trên kiến thức và phán đoán của mình.

Vấn đề của phán đoán

Những điều này lại dẫn đến nhiều câu hỏi hơn. Làm thế nào để ta định nghĩa xác suất chủ quan? Và tại sao các định luật xác suất lại hợp lý nếu chúng dựa trên những điều về cơ bản là do ta tưởng tượng ra? Đây là một chủ đề đã được thảo luận trong giới học thuật gần một thế kỷ qua, nhưng vẫn chưa có kết luận thống nhất.

Một trong những nỗ lực đầu tiên được thực hiện vào năm 1926 bởi nhà toán học Frank Ramsey tại Đại học Cambridge, Anh. Ông là người mà tôi muốn gặp nhất trong lịch sử. Ông là một thiên tài mà công trình nghiên cứu trong xác suất, toán học, và kinh tế học ngày nay vẫn được coi là nền tảng. Ông chỉ làm việc vào buổi sáng, còn buổi chiều dành cho một người vợ và một người tình, chơi tennis, uống rượu và tham gia các bữa tiệc sôi động, nơi ông cười “như một con hà mã” (ông rất to lớn, nặng 108 kg). Ông qua đời năm 1930 khi mới 26 tuổi, có lẽ do nhiễm bệnh trùng xoắn móc câu sau khi bơi ở sông Cam, theo tiểu sử của Cheryl Misak.

Ramsey đã chỉ ra rằng tất cả các quy luật xác suất có thể suy ra từ những kịch bản trong các trò cá cược cụ thể. Các kết quả được gán giá trị hữu ích, và giá trị của việc đặt cược vào thứ gì đó chính là tổng của các giá trị hữu ích kỳ vọng của trò chơi. Bản thân cách tính này cũng bị chi phối bởi các con số chủ quan thể hiện một phần niềm tin – tức là, những xác suất cá nhân của chúng ta. Tuy nhiên, để tính được như vậy đòi hỏi phải có thông số đặc trưng cho các giá trị hữu ích đó. 

Các nỗ lực khác nhằm định nghĩa xác suất thường khá mơ hồ. Ví dụ, trong bài báo The Applications of Probability to Cryptography (1941–1942), Alan Turing sử dụng định nghĩa rằng “xác suất của một sự kiện dựa trên một bằng chứng nhất định là tỷ lệ các trường hợp trong đó sự kiện đó có thể được kỳ vọng sẽ xảy ra với bằng chứng đó.” Điều này thừa nhận rằng xác suất thực tế dựa trên kỳ vọng – tức là sự đánh giá của con người. Nhưng khi nói “các trường hợp”, Turing có ý nói đến các trường hợp của cùng một quan sát, hay của cùng những phán đoán?

Cách tiếp cận này có điểm tương đồng với định nghĩa xác suất khách quan theo quan điểm tần suất, nhưng thay vì dựa trên một tập hợp các quan sát giống nhau lặp đi lặp lại, nó thay thế bằng một tập hợp các đánh giá chủ quan giống nhau lặp đi lặp lại. Theo cách hiểu này, nếu xác suất có mưa được đánh giá là 70%, điều đó có nghĩa là nó thuộc vào nhóm các trường hợp mà nhà dự báo gán xác suất 70%. Khi đó, ta kỳ vọng rằng sự kiện này sẽ xảy ra trong 70% các trường hợp như vậy. Đây có lẽ là định nghĩa mà tôi yêu thích nhất. Tuy nhiên, sự mơ hồ của xác suất được thể hiện rõ ràng bởi thực tế rằng, sau gần bốn thế kỷ, vẫn có rất nhiều người không đồng tình với tôi về quan điểm này.

Cách tiếp cận thực dụng

Khi tôi còn là sinh viên vào những năm 1970, người cố vấn của tôi, nhà thống kê Adrian Smith, đang dịch cuốn Lý thuyết Xác suất của nhà bảo hiểm người Ý Bruno de Finetti. De Finetti đã phát triển các ý tưởng về xác suất chủ quan vào khoảng cùng thời điểm với Ramsey, nhưng hoàn toàn độc lập. (Họ là hai con người rất khác nhau: trái ngược với chủ nghĩa xã hội kiên định của Ramsey, thời trẻ de Finetti từng là một người ủng hộ nhiệt thành phong cách phát xít của nhà độc tài Ý Benito Mussolini, mặc dù sau này ông đã thay đổi quan điểm.) Cuốn sách đó bắt đầu bằng tuyên bố đầy khiêu khích: “Xác suất không tồn tại”, một ý tưởng đã có ảnh hưởng sâu sắc đến tư duy của tôi trong suốt 50 năm qua.


De Finetti đã chứng minh một cách xuất sắc rằng giả định này tương đương về mặt toán học với việc hành xử như thể các sự kiện là độc lập, mỗi sự kiện có một “cơ may” thực sự nào đó để xảy ra, và rằng sự bất định của chúng ta về cơ may chưa biết đó có thể được biểu diễn bằng một phân bố xác suất chủ quan mang tính tri thức.

Tuy nhiên, trong thực tế, có lẽ chúng ta không nhất thiết phải quyết định liệu “cơ may” khách quan có thực sự tồn tại trong thế giới phi lượng tử thường ngày hay không. Thay vào đó, ta có thể tiếp cận vấn đề một cách thực dụng. Trớ trêu thay, chính de Finetti đã đưa ra lập luận thuyết phục nhất cho cách tiếp cận này trong công trình năm 1931 về “tính hoán đổi” dẫn đến một định lý nổi tiếng mang tên ông. Một chuỗi sự kiện được coi là hoán đổi được nếu xác suất chủ quan mà ta gán cho từng chuỗi không bị ảnh hưởng bởi thứ tự mà ta quan sát chúng. De Finetti đã chứng minh một cách xuất sắc rằng giả định này tương đương về mặt toán học với việc hành xử như thể các sự kiện là độc lập, mỗi sự kiện có một “cơ may” thực sự nào đó để xảy ra, và rằng sự không chắc chắn về cơ may chưa biết đó có thể được biểu diễn bằng một phân bố xác suất mang tính chủ quan, dựa trên hiểu biết của chúng ta. Đây là một phát hiện đáng kinh ngạc: nó cho thấy rằng, xuất phát từ cách diễn đạt thuần túy chủ quan về niềm tin, ta nên hành xử như thể các sự kiện được chi phối bởi các cơ may khách quan.

Thật phi thường khi một nền tảng quan trọng như vậy – nền móng của toàn bộ khoa học thống kê cũng như nhiều lĩnh vực khoa học và kinh tế khác – lại bắt nguồn từ một ý tưởng khó nắm bắt đến thế. Vì vậy, tôi xin kết thúc bằng châm ngôn của riêng mình: Trong thế giới thường ngày của chúng ta, xác suất có lẽ không tồn tại – nhưng sẽ có ích nếu ta hành động như thể nó tồn tại. □

Tuệ Tâm dịch

Nguồn: https://www.scientificamerican.com/article/why-probability-probably-doesnt-exist-but-its-useful-to-act-like-it-does/

Bài đăng Tia Sáng số 6/2025

Tác giả

(Visited 1.720 times, 386 visits today)