Thành tựu của người Việt ở nước ngoài trong khoa học thống kê

Những người Việt ở nước ngoài làm khoa học thống kê không nhiều, nếu không muốn nói là “đếm trên đầu ngón tay”. Và họ cũng là những nhà khoa học “trầm lặng”, bởi vì những công trình nghiên cứu của họ khó có thể trở thành một bản tin, một câu chuyện trên báo chí hay hệ thống truyền thông đại chúng. Phát triển một phương pháp xử lí số liệu, tuy có thể có ảnh hưởng cơ bản đến tất cả các ngành khoa học hàng trăm năm, nhưng khó mà hấp dẫn so với một khám phá về gen liên quan đến bệnh tật.

Tuy số nhà khoa học thống kê gốc Việt trên thế giới không nhiều, nhưng họ có nhiều đóng góp quan trọng (có khi rất quan trọng) cho khoa học thống kê. Trong số những người có những cống hiến quan trọng đó, phải kể đến giáo sư Phạm Gia Thụ tại Đại học Moncton ở Canada (mà Người viễn xứ có một bài viết về ông) và giáo sư Huỳnh Huynh, thuộc Đại học South Carolina (Mĩ). Có lẽ nhiều người Việt Nam ở trong nước, kể cả giới khoa học, ít biết đến hai người này, nhưng trong giới thống kê học, họ là hai nhà khoa học có tiếng và có ảnh hưởng quan trọng. Ông Huỳnh Huynh thuộc trường phái tần số và ông Phạm Gia Thụ thuộc trường phái Bayes.
Trong các nghiên cứu khoa học, việc xác định số lượng đối tượng cần thiết cho công trình nghiên cứu cực kì quan trọng, vì nó chẳng những là vấn đề khoa học mà còn là vấn đề đạo đức khoa học. Đóng góp quan trọng của ông Phạm Gia Thụ trong lĩnh vực này xác định số lượng đối tượng nghiên cứu (hay xác định cỡ mẫu – sample size determination) theo lí thuyết của trường phái Bayes có thể nói là cơ bản. Trong một bài báo đăng trên tập san The Statistican năm 1992(1) giáo sư Thụ đã mở ra một hướng đi cho lĩnh vực này. Tiếp tục công trình năm 1992, ông Thụ còn cho xuất bản một số công trình có giá trị trên các tập san có uy tín cao trong khoa học thống kê như Journal of the Royal Statistical Society (Anh), Statistics, Communications in Statistics-Theory and Methods, Mathematical and Computer Modelling… Kể từ khi công trình nghiên cứu năm 1992, cho đến nay không một bài báo khoa học nào về xác định cỡ mẫu theo trường phái Bayes mà không nhắc đến bài báo của tác giả “Pham-Gia T” (tức ông Phạm Gia Thụ).
Trong khoa học, có một công trình nghiên cứu chẳng những được nhiều đồng nghiệp trên thế giới tham khảo, mà còn được đồng nghiệp tham gia bình luận, khen ngợi là một vinh dự lớn.  Công trình của giáo sư Thụ là một công trình như thế: được tham khảo rất nhiều lần, và được ban biên tập tập san mời đồng nghiệp trên thế giới tham gia bình luận.  Cho đến nay, nếu một nhà khoa học nào mới bước vào nghiên cứu về lĩnh vực này mà “quên” không nhắc đến tác giả Pham-Gia thì chắc chắn sẽ bị người bình duyệt nhắc nhở ngay: đề nghị tác giả tham khảo công trình của Pham-Gia! Khi một công trình khoa học về lĩnh vực xác định cở mẫu theo trường phái Bayes, ông còn được ban biên tập tập san mời bình luận (2).
Trong nhiều nghiên cứu khoa học, nhà nghiên cứu phải so sánh nhiều nhóm đối tượng, và mỗi nhóm thường được thẩm định (đo lường) nhiều lần. Chẳng hạn như trong nghiên cứu về hiệu quả của hai loại thuốc trong việc điều trị loãng xương, nhà nghiên cứu phải có hai nhóm bệnh nhân, mỗi bệnh nhân sẽ được mời tái khám nhiều lần để nhà nghiên cứu thu thập dữ liệu. Trong thuật ngữ thống kê, người ta gọi đó là nghiên cứu dạng repeated measure design (thiết kế tái đo lường). Một trong những khó khăn trong việc phân tích các dữ liệu thu thập từ những nghiên cứu này là có nhiều giá trị cho mỗi bệnh nhân. Vào đầu thế kỉ 20, giáo sư Ronald Fisher, nhà thống kê học người Anh và cũng là “cha đẻ” của khoa học thống kê ứng dụng, có đề xuất một phương pháp phân tích có tên là phân tích phương sai (analysis of variance) cho các thí nghiệm có nhiều nhóm đối tượng, mà sau này sách giáo khoa gọi là kiểm định F (lấy chữ cái của tên ông Fisher đặt tên cho phương pháp). Nhưng phương pháp của ông Fisher có vấn đề khi ứng dụng vào nghiên cứu tái đo lường vì sự tương quan giữa các giá trị đo lường trong mỗi đối tượng nghiên cứu không được điều chỉnh thỏa đáng. Vấn đề này kéo dài mãi đến năm 1970, đến khi công trình của ông Huynh và đồng tác giả Feldt.  Trong một bài báo chỉ 7 trang nhưng rất quan trọng đăng trên tập san số 1 của khoa học thống kê, Journal of the American Statistical Association hay JASA (3), hai ông Huynh và Feldt đã giải quyết vấn đề này bằng cách chỉ ra điều kiện cần thiết để kiểm định F có ý nghĩa thống kê.
Công trình của ông Huynh và Feldt gây một tiếng vang cực kì lớn trong khoa học thống kê, đến nỗi bất cứ phần mềm máy tính nào, bất cứ sách giáo khoa nào, bất cứ bài báo nào về phân tích phương sai tái đo lường cũng tham khảo hay nhắc đến bài báo năm 1970 của hai ông.  Rất ít công trình nghiên cứu trong thống kê học lại có ảnh hưởng sâu rộng như thế, và cái tên Huynh và Feldt nay đã trở thành những cái tên quen thuộc: “The Huynh-Feldt epsilon” hay “Two-factorial Huynh-Feldt test”. Bạn đọc có thể gõ “Huynh-Feldt” trên Google sẽ thấy bao nhiêu bài báo nói về phương pháp này!
Đến năm 1976, hai ông Huynh và Feldt lại công bố một công trình nghiên cứu chỉ 13 trang gây thêm tiếng vang trong ngành mà sau này người ta hay nhắc đến với thuật ngữ “The Huynh-Feld correction”(4). Ngoài hai công trình tiêu biểu này, ông Huynh còn có nhiều đóng góp trong lĩnh vực thẩm định giáo dục bằng phân tích thống kê được công bố trên các tập san số 1 trong ngành tâm lí học và thống kê tâm lí học như Psychometrika, Psychological Bulletin, hay nghiên cứu thống kê giáo dục (Journal of Educational Statistics, Journal of Educational Measurement). 

Nguyễn Văn Tuấn

Tác giả