Trong lúc chúng ta đang bàn về ứng dụng toán, tôi xin trân trọng giới thiệu bài nói chuyện của Giáo sư George Box – là một trong những “đại thụ” của khoa học thống kê trong thế kỉ 20, với rất nhiều đóng góp cơ bản và quan trọng cho khoa học, đặc biệt là những đóng góp về mô hình phân tích số liệu thời gian (time series models), kiểm định chất lượng, nghệ thuật và khoa học.  Ông là tác giả của câu nói nổi tiếng “All models are wrong, but some are useful” (tất cả các mô hình đều sai, nhưng có vài mô hình có ích).  Ông là chủ tịch thứ 73 của Hội Thống kê Hoa Kì (American Statistical Association).  Ông là một nhà khoa học hiền hậu, vui tính – và khiêm tốn.  Ông tự gọi mình là một nhà thống kê bất đắc dĩ, vì ông đến với thống kê học qua chiến tranh.  Năm nay, Giáo sư George Box đã 92 tuổi, vẫn sống ở Madison, Wisconsin – nhân dịp kỉ niệm 50 năm Bộ môn Thống kê học của trường Đại học Wisconsin, do chính ông sáng lập vào năm 1960.
Bài nói chuyện tuy mang tính cá nhân, nói về con đường ông đến với thống kê học, nhưng còn cung cấp vài dữ liệu và bài học quí báu về ứng dụng thống kê trong khoa học và kĩ nghệ. 
Dịch và giới thiệu: Nguyễn Văn Tuấn
Vì thế, khi chiến tranh nổ ra, tôi quyết định nhập ngũ, dù lúc đó tôi sắp xong bằng cử nhân hóa học. Tôi nhất định bỏ học để đi lính. Họ sắp xếp cho tôi công tác trong ngành công binh (và khi tôi nhìn thấy cây cầu, tôi nghĩ đến chuyện tính toán làm sao để giật sập được một cây cầu). Nhưng chưa thực hiện được ý định giật sập cầu, thì họ thuyên chuyển tôi sang một trung tâm bí mật chuyên làm thí nghiệm khoa học ở miền Nam nước Anh. Lúc đó, quân đội Đức đang dội bom London mỗi đêm. Chính phủ Anh nghĩ đến tình huống xấu nhất là Đức sẽ dùng đến khí độc. Công việc của chúng tôi là tìm cách đối phó với tình huống xấu nhất khí Đức ra tay.
Thời đó, trung tâm thí nghiệm tôi làm việc là nơi hội tụ rất nhiều nhà khoa học sáng chói nhất của Anh quốc. Chúng tôi làm rất nhiều thí nghiệm trên động vật, và tôi lúc đó chỉ là một phụ tá trong phòng thí nghiệm với nhiệm vụ sản xuất những sinh phẩm cần thiết cho thí nghiệm. Sếp của tôi là một giáo sư sinh lí học, nhưng ông được quân đội Anh cho mang hàm đại tá; còn tôi được đeo lon trung sĩ.
Những kết quả thí nghiệm của tôi dao động rất lớn, và tôi không biết làm gì với những kết quả như thế. Tôi nói với sếp đại tá rằng “Chúng ta cần một nhà thống kê học”. Sếp tôi hỏi “Làm sao chúng ta có thể kiếm được một nhà thống kê lúc này, thế anh có biết gì về thống kê không?” Tôi nói “Chẳng biết gì cả, tôi có lần đọc một cuốn sách của một người có tên là R. A. Fisher nhưng tôi chẳng hiểu gì cả.” Sếp nói “Nếu anh đã từng đọc sách đó thì anh là người có kiến thức nhất về thống kê ở đây rồi, vậy anh thử làm đi”, và tôi nói, “Yes, sir” (tuân lệnh). Tôi đề nghị cơ quan quân đội cung cấp thêm những bài báo khoa học và sách giáo khoa về thống kê, và họ đáp ứng tất cả đề nghị của tôi.
Trong thời gian 3, 4 năm sau đó, tôi tiến hành thiết kế và phân tích hàng trăm thí nghiệm. Đủ loại thí nghiệm. Trong danh sách những bài báo khoa học của tôi, 2 bài đầu tiên mô tả một số công trình tôi làm lúc đó.
Có dạo, tôi gặp một vấn đề thống kê mà tôi không giải quyết được, và một nhà khoa học lâu năm đề nghị tôi nên liên lạc R. A. Fisher [1]. Tôi viết thư cho Fisher, và ông mời tôi đến gặp ông ở Đại học Cambridge. Nhưng cơ quan quân đội không biết cách nào để gửi một trung sĩ đến gặp một giáo sư, và thế là họ ra một công văn đặc biệt để tôi cỡi ngựa đi Cambridge.
![]() |
Tôi đến Cambridge vào một ngày tuyệt đẹp. Fisher nói “OK, chúng ta sẽ ngồi dưới tàng cây kia, tôi sẽ tìm hiểu hàm probits và anh sẽ tìm hàm nghịch đảo nhé” [2]. Và, thế là vấn đề được giải quyết, và đó chính là lúc tôi nghĩ đến vấn đề hoán chuyển số liệu [3].
Khi cuộc chiến sắp kết thúc, chúng tôi phát hiện rằng Đức đã phát triển độc khí: đó là khí Tabun và vài hóa chất khác mà mức độ độc hại rất cao, khoa học chưa bao giờ biết đến. Thế là tôi trở thành một thành viên trong một nhóm nghiên cứu các độc khí này ngay tại trung tâm nghiên cứu của Đức. Trung tâm này nằm ở phía Bắc nước Đức, lúc đó đang bị bỏ hoang sau khi Đức thất trận. Đoàn chúng tôi có đến 50 xe tải chở những thiết bị khoa học đi qua những thành phố, thị trấn tiêu điều của Bỉ và Đức. Khi đến nơi, tôi tiến hành khá nhiều nhiều thí nghiệm hóa học.
Đến khi tôi được giải ngũ, quân đội Anh trao tặng huy chương ghi nhận những đóng góp của tôi cho khoa học trong thời chiến. Họ còn tử tế trả tiền cho tôi theo học tại Đại học London (University College London, hay UCL). Ở UCL, tôi theo học thống kê học dưới sự hướng dẫn của Giáo sư E. S. Pearson [4]. Tôi phải tiêu ra 18 tháng trời để hoàn tất văn bằng cử nhân. Sau bằng cử nhân, tôi theo học thạc sĩ và nghiên cứu tiến sĩ.
Trong thời gian tôi theo học tại UCL, tôi có những mùa hè rất có ích. Thật ra, tôi không có nghỉ hè; tôi dùng thời gian nghỉ hè để thực tập trong hãng hóa chất Imperial Chemical Industries (ICI), hãng hóa chất lớn nhất nước Anh thời đó. Tôi giúp ICI O.L. Davies biên tập cuốn sách Statistical Methods in Research and Production [5]. Có lẽ qua việc giúp biên soạn cuốn sách trên, nên sau khi tốt nghiệp, ICI mời tôi làm việc cho họ.
Tám năm kế tiếp là thời gian hạnh phúc nhất đời tôi. Phòng khoa học của ICI sản xuất rất nhiều sản phẩm, nào là thuốc nhuộm, vải nylon, áo mưa, v.v… Một nhóm chuyên gia về hóa chất và kĩ sư cùng nhau hợp lực phát triển và cải tiến rất nhiều qui trình sản xuất. Tôi là một thành viên trong nhóm đó. Tôi có cơ hội tiến hành rất nhiều thí nghiệm nhằm gia tăng năng suất với chi phí ít nhất. Ngoài ra, tôi còn giúp các nhà hóa học thiết kế thí nghiệm để kiểm tra chất lượng sản phẩm. Trong thời gian làm việc ở đây, tôi rất bận bịu, tối ngày đi lên đi xuống giải thích, hướng dẫn cho công nhân và đồng nghiệp làm thí nghiệm theo những qui trình mới.
Tôi rất thích công việc thí nghiệm, và không có ý định rời bỏ kĩ nghệ để theo đuổi sự nghiệp khoa bảng. Nhưng trong quá trình giải quyết những vấn đề thực tế, tôi có vài ý tưởng để phát triển phương pháp thống kê. Tôi có viết một số bài báo và công bố trên các tập san chuyên ngành thống kê.
Năm 1952 tôi ngạc nhiên nhận được thư của Đại học North Carolina (Raleigh) mời làm giáo sư thỉnh giảng (visiting professor) một năm. Hội đồng quản trị hãng ICI đồng ý cho tôi đi một năm, nhưng họ cũng nói rõ rằng họ muốn tôi quay về Anh sau khi xong việc bên Mĩ. Họ (ICI) thu xếp để tôi đi Mĩ trên tàu Queen Mary, một chuyến viễn du thú vị. Tôi có một năm tuyệt vời ở Raleigh, nơi tôi gặp Stu Hunter [6], lúc đó mới là một nghiên cứu sinh. Chúng tôi làm việc chung với nhau về phương pháp “response surface” [7].
Sau khi xong hợp đồng, tôi quay về Anh và làm việc cho ICI thêm được 3 năm.
Năm 1956, John Tukey [8] ở Bell Labs gọi gọi điện tôi hầu như mỗi buổi sáng. Ông ấy muốn tôi sang Đại học Princeton làm giám đốc nhóm nghiên cứu kĩ thuật thống kê (Statistical Techniques Research Group — STRG) lúc đó đang được thành lập. Sau cùng, tôi đành nghe theo lời ông ấy và lại lên đường đi Mĩ vào cuối năm 1956. Tôi kéo theo Stu Hunter, Don Behnken, Collin Mallows, Geoff Watson, Henry Scheffé, Merve Muller, Norman Draper [9], và nhiều người khác tham gia nhóm nghiên cứu. Nhóm này rất thành công, vì đã làm nhiều nghiên cứu rất hay, với nhiều công trình khoa học được công bố. Đó cũng là năm tôi gặp Gwilym Jenkins lần đầu tiên [10].
Chúng tôi tin rằng những ý tưởng mới trong thống kê học thường xuất phát từ những vấn đề khoa học đặc thù. Một ý tưởng mà chúng tôi manh nha lúc đó là làm sao thiết kế và xây dựng được một cái hệ thống tự động tối ưu hóa (automatic optimiser, một kĩ thuật để điều chỉnh đầu vào sao cho đầu ra tối đa), nhưng các nhà hóa học không mặn mà mấy với ý tưởng đó.
Năm 1960, Đại học Wisconsin mời tôi đến nói chuyện trong 2 seminar. Một seminar về khoa học thống kê, và một seminar về ý tưởng thành lập một bộ môn thống kê. Tôi nói với họ những ý tưởng của tôi về định hướng nghiên cứu của Bộ môn Thống kê học. Và, thế là họ nói nếu tôi có ý tưởng như thế, thì tôi là người tốt nhất thực hiện ý tưởng đó. Họ đề nghị tôi tham gia Wisconsin.
Tôi rời Princeton đi Wisconsin. Đến Wisconsin, tôi bắt tay vào việc thành lập bộ môn thống kê học vào mùa thu năm đó, và địa điểm là một cái chòi tên là Nissen gần bờ hồ. Dạo đó, cái chòi này hay bị ngập lụt, và mỗi lần ngập lụt, sách vở trôi lềnh bềnh, trông rất nhếch nhác.
Một nhà hóa học nổi tiếng tên là Olaf Hougen ở Wisconsin rất thích ý tưởng về hệ thống tự động tối ưu hóa của chúng tôi. Ông ấy đề nghị chúng tôi xin tài trợ từ Quĩ Khoa học Quốc gia (National Science Foundation — NSF). Thế là chúng tôi xin được tài trợ từ NSF. Sau 3 năm trầy trật nghiên cứu, chúng tôi xây dựng được một cái máy tối ưu hóa – và nó có vận hành hiệu quả. Đây chính là nơi mà Gwilym Jenkins và tôi có thêm kinh nghiệm về sử dụng các mô hình bất ổn (non-stationary), mô hình động (dynamics) và mô hình ước lượng phi tuyến tính (non-linear estimation). Chúng tôi viết thành một cuốn sách Time Series Analysis Forecasting and Control [11]. Cuốn này đã được tái bản lần thứ 4.
Bộ môn Toán của Đại học Wisconsin muốn bỏ tất cả những môn học dính dáng đến thống kê, và họ đề nghị bộ môn chúng tôi phụ trách dạy những môn đó. Thế là tôi trở thành giảng viên dạy những môn mà sau này người ta gọi là “Advanced Theory of Statistics”. Lúc đó, tôi có 7 nghiên cứu sinh, trong đó có Bill Hunter, George Tiao và Sam Wu. Tôi còn nhớ George Tiao là một “bell-wether” của tôi. Bất cứ lúc nào tôi thấy anh ta có vẻ lo lắng, tôi phải nhìn vào bảng đen xem mình có viết gì sai không.
Ngay từ đầu, tôi đã nhận ra rằng sinh viên học khá nhiều về lí thuyết thống kê, nhưng họ chẳng biết sử dụng thống kê cho việc gì. Thế là tôi thiết lập cái mà sau này người ta gọi là “Monday night beer session”. Mỗi thứ Hai, chúng tôi tụ tập uống bia và thảo luận khoa học thống kê ngay tại nhà tôi ở. Đó không phải là một khóa học chính thức, học viên chẳng cần có điều kiện gì để nhập học, cũng chẳng có thi cử hay tính điểm gì cả. Khóa học mở cho mọi người, ai thích thì đến uống bia và học. Chúng tôi có nghiên cứu sinh và giảng viên từ các khoa thống kê, kĩ thuật, thương nghiệp, và y khoa tham dự. Chúng tôi còn có nhiều người chuyên đi săn tìm những vấn đề thực tế để đưa vào khóa học và thảo luận. Trung bình, mỗi vấn đề được trình bày trong khoảng 20 phút, và sau đó là phần thảo luận cách giải quyết vấn đề. Khóa học được duy trì vài thập niên sau đó, và có thể nói là rất thành công. Mãi đến nay tôi vẫn nghe nhiều đồng nghiệp đề cập đến khóa học bia vào đêm thứ Hai! Tôi nghĩ nhiều người học cách giải quyết vấn đề từ “khóa học” đó.
Tôi rất là may mắn trong tình bạn và được sự ủng hộ của nhiều người. Tôi đã nhận quá nhiều từ bạn bè trong suốt cuộc đời. Và, với các bạn đó, tôi muốn nói lời “Cám ơn”.
Khoa học thống kê (statistical science) đóng một vai trò cực kì quan trọng trong việc phát triển khoa học thực nghiệm. Tuy lịch sử của khoa học thống kê rất lâu đời, nhưng khoa học thống kê hiện đại chỉ mới khởi đầu từ những năm cuối thế kỉ 19 và đầu thế kỉ 20. Cho đến nay, có thể nói khoa học thống kê “chinh phục” hầu như tất cả các lĩnh vực khoa học thực nghiệm, xã hội học, kinh tế học, và thậm chí văn học. Có người ví von về tốc độ phát triển khoa học thống kê ngang hàng với Attila, Mohammed! Trong khi ở các nước tiên tiến hay trong vùng, bất cứ đại học nào cũng có bộ môn thống kê học, ở nước ta không một đại học nào có môn học này. Số chuyên gia thống kê cũng rất ít. Có thể nói không ngoa rằng khoa học thống kê ở nước ta còn kém hơn khoa học thống kê Âu châu vào thế kỉ 17, 18. Tình trạng “lạc hậu” về khoa học thống kê ở nước ta đã làm ảnh hưởng không nhỏ đến khoa học nước nhà. Vì các bộ môn khoa học thực nghiệm ở nước ta chưa được sự hỗ trợ từ khoa học thống kê, cho nên rất nhiều nghiên cứu khoa học ở nước ta chưa có chất lượng cao, và chưa thể công bố trên các tập san khoa học quốc tế. |
Ghi chú của người dịch:
[1] Ronald A. Fisher là một nhà sinh học và thống kê học sáng chói nhất trong thế kỉ 20. Có thể nói ông là “cha đẻ” của thống kê hiện đại. Ông là tác giả của phương pháp điểm định F (F test), Fisher’s exact test, lí thuyết di truyền học, và rất nhiều sáng kiến độc đáo khác. Cuốn sách kinh điển Statistical Methods for Research Workers của ông có ảnh hưởng cực kì lớn đến khoa học hiện đại. Fihser là cha vợ của George Box.