Xếp hạng đại học: cần minh bạch hóa phương pháp

Đứng trên quan điểm của “khách hàng” hay sinh viên đang chọn trường, xếp hạng đại học là một điều có ích vì theo lí thuyết nó có thể cung cấp vài thông tin về chất lượng đào tạo của trường đại học. Vì vậy nhu cầu xếp hạng đại học ở nước ta là có thật, nhưng vấn đề ở đây là đo lường chất lượng như thế nào cho khách quan. Đó là câu hỏi mấu chốt khó có giải đáp khách quan và khoa học, nhất là trong điều kiện thiếu thốn dữ liệu như ở nước ta.

Vấn đề phương pháp

Hiện nay có nhiều nhóm truyền thông đứng ra lập những danh sách “top 200” và “top 500”. Trong các nhóm này phải kể đến nhóm Phụ trang giáo dục đại học của tờ Thời báo (THES – Times Higher Education Supplement) và nhóm thuộc Đại học Giao thông Thượng Hải (GTTH) được nhiều người biết đến từ 2003. Các nhóm này sử dụng nhiều tiêu chí khác nhau để đánh giá chất lượng đào tạo và nghiên cứu của một đại học. 

Nhóm GTTH dựa vào 4 tiêu chí chính là số cựu sinh viên tốt nghiệp đoạt giải Nobel và Fields, số giáo sư đoạt giải Nobel và Fields, số nhà khoa học được trích dẫn nhiều lần, số bài báo khoa học trên hai tập san NatureScience, số bài báo khoa học trên tập san trong danh bạ SCIE, SSCI, và thành tựu của giáo sư và đội ngũ khoa bảng. 

Ngược lại, thay vì tập trung vào các tiêu chí nghiên cứu khoa học của GTTH, nhóm THES dựa vào sự đánh giá của giới khoa bảng từ các trường khác, số sinh viên tốt nghiệp làm việc trong các công ty toàn cầu, phần trăm giáo sư và sinh viên là người nước ngoài, tỉ số sinh viên / giáo sư, và số lần trích dẫn tính trên đầu người giáo sư.

Mỗi tiêu chí được cho một trọng số (weight). Tổng tích số của trọng số và kết quả của mỗi tiêu chí là điểm cuối cùng cho mỗi đại học. Chẳng hạn như nhóm GTTH định trọng số 10% cho số cựu sinh viên đoạt giải Nobel và Fields, và thành tựu của giáo sư; nhưng cho trọng số 20% cho các tiêu chí như số giáo sư đoạt giải Nobel và Fields, số giáo sư có trích dẫn cao, số bài báo trên Science và Nature hay trong danh bạ SSI và SSCI.

Để thấy hạn chế của cách xếp hạng, tôi sẽ lấy cách làm của GTTH ra làm ví dụ. Giả dụ có hai đại học A với 300 giáo sư và đại học B với 500 giáo sư. Thành quả của hai đại học này qua 4 tiêu chí chính mà nhóm GTTH dựa vào để xếp hạng đại học như sau:

Tiêu chí

Đại học A

Đại học B

Số cựu sinh viên đoạt giải Nobel và Fields (trọng số 10%)

1

0

Số giáo sư đoạt giải Nobel và Fields (trọng số 20%)

2

0

Số giáo sư có chỉ số trích dẫn cao (trọng số 20%)

100

2

Số bài báo trên tập san ScienceNature (trọng số 20%)

30

30

Số bài báo trên các tập san quốc tế (trọng số 20%)

350

500

Thành tựu trung bình của giáo sư (trọng số 10%)

9.65

10.64

Tổng số điểm

106.15

117.04

Nhìn qua kết quả của các tiêu chí trên, chúng ta thấy rõ ràng đại học A mặc dù số giáo sư ít hơn nhưng có thành tựu khoa học cao hơn đại học B. Đại học A có 1 cựu sinh đoạt giải Nobel (nhưng đại học B không có); số giáo sư có trích dẫn cao của đại học A cũng cao gấp 50 lần đại học B; năng suất khoa học của đại học A (số bài báo trên Science và Nature hay nói chung trên 300 giáo sư) cũng cao hơn đại học B. Thế nhưng theo cách tính của nhóm GTTH thì đại học A có số điểm là 106.15, thấp hơn đại học B với tổng số điểm là 117.04!  Do đó, theo cách xếp hạng của GTTH thì đại học B có chất lượng cao hơn đại học A!

Vì sao có sự khác biệt về xếp hạng đến vô lí như thế? Vấn đề chính ở đây là phương pháp tính toán của GTTH đặt nặng vào số lượng bài báo và số lượng này tùy thuộc vào lực lượng khoa bảng (số lượng giáo sư) của trường đại học. Để quân bình hóa vấn đề chênh lệch số lượng giáo sư giữa các trường, họ tạo thêm một tiêu chí bằng cách lấy tổng tích số của 5 tiêu chí và chia cho số lượng giáo sư, và tiêu chí quân bình này có trọng số 10%! Ngoài ra, GTTH còn xem giá trị của một bái báo trên ScienceNature tương đương với một bài báo trên một tập san dưới trung bình nhưng có trong danh bạ SSI và SSCI!

Phần lớn giới làm khoa học đều biết rằng những tiêu chí như số lần trích dẫn cao và số công trình 2 tập san danh tiếng ScienceNature là thước đo quan trọng của nghiên cứu khoa học. Theo đó, giả dụ rằng chúng ta cho trọng số 30% cho những giáo sư có trích dẫn cao và bài báo trên 2 tập san danh tiếng ScienceNature, và trọng số 10% cho các tiêu chí còn lại, thì tổng số điểm của đại học A sẽ là 81.73 và đại học B là 65.56. Theo cách đánh giá này thì đại học A có chất lượng cao hơn đại học B. Ví dụ đơn giản này cho chúng ta thấy một vấn đề nổi cộm: đó là vấn đề phương pháp xác định trọng số.

Do đó câu hỏi then chốt cần đặt ra là làm thế nào để xác định được trọng số cho mỗi tiêu chí?

Phương pháp khách quan nhất để xác định trọng số là phân tích thống kê. Có nhiều mô hình thống kê để xác định trọng số, và các phương pháp này đều dựa vào nhiều giả định khó kiểm tra. Trong ngành y, người ta đã sử dụng phương pháp thống kê để xếp hạng bệnh viện từ lâu, và qua đó mà học được rất nhiều điều từ cách làm của họ. Bài học đơn giản nhất là: nếu không rành thống kê thì không nên làm, vì nếu làm sẽ gây ra hệ quả nghiêm trọng như vụ Bristol bên Anh trước đây.

Các phương pháp này đòi hỏi một trình độ thống kê học cao mà không phải nhà thống kê học nào cũng có thể làm được. Trong cộng đồng người Việt ở nước ngoài, tôi nghĩ đến hai nhà thống kê học trong lĩnh vực này: đó là Giáo sư Huỳnh Huynh thuộc đại học South Carolina (Mỹ) và Giáo sư Phạm Gia Thụ thuộc Đại học Moncton (Canada). Hai giáo sư này là những chuyên gia hàng đầu trên thế giới về thống kê học, đặc biệt là Giáo sư Huynh là một chuyên gia về đo lường giáo dục lâu năm rất có tiếng trên thế giới. (Xin nói ngay rằng tôi chẳng quen biết gì hai giáo sư này và cũng chưa bao giờ gặp mặt, chỉ ngưỡng mộ qua những công trình của họ mà thôi.)

Vấn đề dữ liệu

Nhưng nếu mô hình phân tích thống kê là một vấn đề kĩ thuật thì vấn đề quan trọng khác là chất lượng của dữ liệu. Nguyên liệu của phân tích thống kê là dữ liệu. Nếu dữ liệu thu thập không tốt thì kết quả phân tích thống kê chỉ là những con số vô nghĩa. Do đó, các dữ liệu về đại học phải được thu thập một cách có hệ thống và có phương pháp khoa học. Các dữ liệu này phải được thu thập qua nhiều năm, chứ không chỉ một năm. Chỉ khi nào dữ liệu thu thập mang tính khoa học theo thời gian thì phân tích thống kê mới mang ý nghĩa, và trọng số xác định từ phân tích thống kê mới có thể nói là mang tính hợp lí.


 

Ở nước ta, tôi nghĩ nhu cầu xếp hạng đại học là có thật, nhưng trước khi công bố xếp hạng, tôi nghĩ cần phải có dữ liệu dồi dào qua nhiều năm (longitudinal research) chứ không phải một năm, và phương pháp phải mang tính hợp lí cao thì mới đảm bảo tính khách quan của xếp hạng. Thiết tưởng việc xếp hạng đại học có ảnh hưởng đến nhiều người, vấn đề phương pháp và dữ liệu cần nên được minh bạch hóa và thảo luận trước khi ứng dụng vào thực tế.

Không ai ngoài nhóm GTTH biết phương pháp phân tích và dữ liệu họ thu thập như thế nào, nhưng có điều chắc chắn là kết quả xếp hạng của GTTH không nhất quán với các danh sách khác. Chẳng hạn như một số trường xuất hiện trên danh sách top 200 của GTTH không có trong danh sách của THES (và ngược lại). Theo xếp hạng năm 2006, 4 trong số 50 trường hàng đầu của GTTH không nằm trong top 500 của THES! Một số trường trong danh sách top 50 của GTTH thậm chí không nằm trong danh sách top 500 của THES. Tính tổng cộng, chỉ có 133 trường nằm trong cả hai danh sách! Phân tích này một lần nữa cho thấy cách xếp hạng của cả hai nhóm không đáng tin cậy và không có cơ sở khoa học vững vàng.  

Xin lấy vài trường hợp làm ví dụ. Đại học Osaka theo cách xếp hạng của THES đứng hạng 69 năm 2004, nhưng tụt xuống hạng 105 năm 2005, rồi quay về hạng 70 năm 2006. École Polytechnique của Pháp cũng “nhảy đầm” như thế: hạng 27 năm 2004, 10 năm 2005, và 37 năm 2006! Chính vì thế mà nhiều đại học bây giờ không đánh giá cao những cách xếp hạng này.  

Một số chuyên gia khi phân tích các tiêu chí và cách làm của GTTH và THES nhận xét rằng các tiêu chí mà hai nhóm này sử dụng thiếu tính khoa học, và họ cảnh báo rằng cách xếp hạng hiện nay có thể gây tác hại cho khoa học và giáo dục. Chuyên gia về chất lượng đại học F. Raan phê phán một cách gay gắt phương pháp của Đại học Giao thông Thượng Hải. Trong một bài báo khoa học, ông chỉ ra những sai lầm về khái niệm và phương pháp của GTTH. Ông nói thẳng rằng nhóm GTTH không biết gì về phân tích chất lượng khoa học cả, ông gọi nhóm này là “Những người kém cỏi về chuyên môn và thiếu kinh nghiệm trong lĩnh vực định lượng khoa học.” Thật vậy, trong một thư trả lời, nhóm GTTH cũng thú nhận: “Chúng tôi [nhóm GTTH] thậm chí không dám tự nhận mình là các nhà nghiên cứu về đo lường khoa học.”

Hiệu trưởng Đại học McGill (một “Harvard của Canada”) Bernard Shapiro, trong một thư cho các nhóm xếp hạng đại học, viết như sau: “Việc tổng hợp các chỉ tiêu riêng lẻ để đi đến một chỉ số chung hay xếp hạng là một việc làm hết sức khó khăn.  Qui trình này đòi hỏi việc xác định trọng số cho mỗi tiêu chí trong phương trình tính toán. Trọng số phải được đúc kết từ những phân tích và đánh giá mà tôi chắc chắn rằng chẳng ai đồng ý. Rõ ràng là nếu thay đổi trọng số thì thứ tự xếp hạng sẽ khác nhau rất lớn. Và, điều này cho thấy cách xếp hạng hiện nay không đáng tin cậy. Vì không đáng tin cậy nên nó có thể gây tác hại đến uy tín của đại học.” Giáo sư Gerhard Casper, hiệu trưởng Đại học Stanford (California) cũng gióng một tiếng nói tương tự: “Phương pháp xếp hạng hiện nay không chính xác và không có ý nghĩa thực tế. #1 và #2 có thể khác nhau như #1 và #10, nhưng có lẽ sự khác biệt này chẳng có ý nghĩa thống kê, nhưng đại học sẽ có hạng khác nhau.” Năm ngoái, một nhóm đại học ở Mỹ kêu gọi tẩy chay những xếp hạng hiện hành.

Và tình hình nước ta

 Hiện nay, ngành giáo dục nước ta đang có nỗ lực để xếp hạng đại học Việt Nam. Tuy nhiên, các tiêu chí cụ thể sẽ được sử dụng cho việc xếp hạng này vẫn chưa được công bố. Nhưng qua phát biểu của một chuyên gia (“Việc xếp hạng các trường ĐH cần phản ánh được hai hoạt động chính của nhà trường là giảng dạy và nghiên cứu khoa học. Trong nghiên cứu khoa học phải bao hàm cả chuyển giao công nghệ phục vụ nhu cầu phát triển kinh tế – xã hội. Các trường ĐH được xếp hạng theo cùng nhóm theo từng lĩnh vực giảng dạy và nghiên cứu khoa học.”) thì các tiêu chí mà các giới chức Việt Nam sắp sử dụng có vẻ khác với các tiêu chí trên thế giới. Tất nhiên, tiêu chí của Việt Nam không nhất thiết phải giống với các nhóm khác, nhưng vấn đề hợp lí nội tại (internal validity) và hợp lí ngoại tại (external validity) của các tiêu chí vẫn cần phải được xem xét cẩn thận.

Không biết phương pháp xác định trọng số mà các chuyên gia Việt Nam sắp sử dụng để xếp hạng đại học là gì, và dữ liệu đã được thu thập hay phân tích ra sao. Trang web của nhóm nghiên cứu về cách xếp hạng đại học không cung cấp những thông tin cụ thể về phương pháp phân tích, cũng như những công trình đã được công bố quốc tế (peer reviewed publications). 

Hai yêu cầu cơ bản của bất cứ một đo lường nào là độ tin cậy (reliability) và độ chính xác (accuracy). Độ tin cậy phản ảnh tính nhất quán của biến đo lường khi được ứng dụng nhiều lần trong một điều kiện. Độ chính xác của một đo lường cung cấp cho chúng ta biết đo lường thật sự phản ảnh được bao nhiêu bản chất của vấn đề chúng ta cần biết. Chỉ khi nào các tiêu chuẩn chất lượng đáp ứng hai yêu cầu này thì mới có thể áp dụng rộng rãi. 

Ở nước ta, tôi nghĩ nhu cầu xếp hạng đại học là có thật, nhưng trước khi công bố xếp hạng, tôi nghĩ cần phải có dữ liệu dồi dào qua nhiều năm (longitudinal research) chứ không phải một năm, và phương pháp phải mang tính hợp lí cao thì mới đảm bảo tính khách quan của xếp hạng. Thiết tưởng việc xếp hạng đại học có ảnh hưởng đến nhiều người, vấn đề phương pháp và dữ liệu cần nên được minh bạch hóa và thảo luận trước khi ứng dụng vào thực tế.

Như đề cập trên, đối với sinh viên và phụ huynh chọn trường, xếp hạng đại học có thể có ích. Nhưng xếp hạng như cách làm hiện nay không thể xem là một chỉ số về chất lượng khoa học hay đào tạo được, bởi vì ngay cả cụm từ “chất lượng” vẫn chưa được định nghĩa và định lượng rõ ràng.

Tác giả

(Visited 2 times, 1 visits today)