Kỳ thi Tốt nghiệp THPT: Duy trì chuẩn học thuật tối thiểu và sự công bằng dữ liệu

Những sóng gió của kỳ thi tuyển sinh năm nay lại tiếp tục khơi gợi tranh cãi về “trọng trách” của kỳ thi THPT.

Các thí sinh trao đổi sau khi rời khỏi trường thi. Ảnh: baochinhphu.vn

Mùa tuyển sinh đại học 2025 mang một ý nghĩa đặc biệt, một thời khắc mang tính bản lề của ngành giáo dục Việt Nam. Lần đầu tiên, một thế hệ học sinh trọn vẹn của Chương trình giáo dục phổ thông (GDPT) 2018 chính thức ra lò, mang theo kỳ vọng về một lớp công dân được phát triển toàn diện cả về phẩm chất và năng lực. Song hành với đó, đây cũng là năm đầu tiên các trường đại học áp dụng quy chế tuyển sinh mới theo Thông tư 06/2025 của Bộ Giáo dục và Đào tạo (GD&ĐT), cùng các hướng dẫn chi tiết trong Công văn 2457 và 4222.

Về mặt lý thuyết, đây là một bước ngoặt cải cách, hứa hẹn một sân chơi linh hoạt nhưng vẫn đảm bảo công bằng. Linh hoạt là bởi các trường đại học vẫn có quyền tự chủ về cách thi và nội dung thi. Nhưng công bằng là bởi mọi kết quả thi từ những bài thi, cách tuyển sinh riêng của từng trường, dù khác nhau ra sao cũng đều được quy đổi dựa vào bài thi Tốt nghiệp Trung học Phổ thông (gọi tắt là 12/12), sử dụng công cụ bách phân vị. Điểm ưu tiên bị giới hạn để tránh lạm dụng, và hình thức xét tuyển sớm gây nhiều áp lực tâm lí cho thí sinh cũng bị loại bỏ.

Tuy nhiên, những gì diễn ra trên thực tế lại cho ta một bức tranh đầy xáo trộn. Sự bùng nổ trăm hoa đua nở của các phương thức tuyển sinh và cách quy đổi khác nhau đến khó tin của các trường đại học dựa vào kì thi THPT dẫn đến lỗi hệ thống như nhiều thí sinh từ đỗ thành trượt, từ trượt thành đỗ, khiến phụ huynh, học sinh cảm thấy “chóng mặt”. Chẳng hạn, mỗi trường đại học lại áp dụng mức quy đổi khác nhau cho chứng chỉ IELTS sang điểm môn tiếng Anh của kỳ thi 12/12: cùng mức điểm 6.0, có trường quy thành 7, trường khác thành 8 hoặc 9. Đại học Quốc gia Hà Nội phải tìm cách quy đổi kết quả của kỳ thi HSA đánh giá kiến thức và kĩ năng của gần 10 môn học phổ thông sang các tổ hợp thi tốt nghiệp vốn chỉ có ba môn. Hay Đại học Cần Thơ thì lại áp dụng phương pháp nội suy tuyến tính cho học bạ để quy đổi sang điểm thi tốt nghiệp.

Kỳ thi THPT phải gánh một trọng trách kép

Từ đâu nên nông nỗi này? Phải chăng là do cách ta gán trọng trách cho kỳ thi 12/12? Nó thực ra là thước đo cho thành quả (outcomes) của chương trình GDPT 2018? Hay là công cụ kỹ thuật phải gồng gánh một sứ mệnh làm gốc cho quy đổi? Hay cả hai?

Mục tiêu chương trình lớn, thước đo nhỏ

Chương trình phổ thông 2018 được thiết kế với một tham vọng lớn lao: phát triển toàn diện con người với năm phẩm chất (yêu nước, nhân ái, chăm chỉ, trung thực, trách nhiệm) và 10 năng lực cốt lõi (bao gồm cả những kĩ năng mềm như giao tiếp, hợp tác, giải quyết vấn đề và sáng tạo). Dễ thấy, một trong những thước đo có thể đánh giá cả quá trình rèn luyện phẩm chất và năng lực của học sinh là học bạ. Nhưng trên thực tế, việc giao toàn bộ quyền đánh giá cho các trường phổ thông đã làm dấy lên mối nghi ngờ về sự công bằng và chính xác. Báo chí đã nhiều lần chỉ ra tình trạng “lạm phát điểm” học bạ một cách đáng báo động. Tờ Tuổi Trẻ năm 2024 từng có thống kê gây sốc khi tỉ lệ học sinh giỏi ở nhiều tỉnh thành lên tới trên 90%, khiến dư luận không thể không đặt câu hỏi về tính khách quan. Khi điểm số trong học bạ có thể bị thổi phồng do áp lực thành tích hoặc tiêu chí chấm điểm thiếu đồng bộ, việc dùng nó để xét tuyển đại học sẽ tạo ra một sự bất công mang tính hệ thống.

Việc coi kỳ thi 12/12 làm “mỏ neo” để chuẩn hóa cho tuyển sinh đại học, thoạt nghe có vẻ là một lựa chọn hợp lí về mặt quản lý nhà nước nhưng lại là bài toán kĩ thuật nan giải. Ảnh: baochinhphu.vn


Bởi vậy, thước đo được cho là khách quan duy nhất còn lại là kết quả của kỳ thi tốt nghiệp Trung học Phổ thông. Tuy vậy, một bài thi trên giấy, dù được thiết kế tốt đến đâu, cũng gần như “bất lực” trong việc đo lường các phẩm chất và năng lực phức tạp theo yêu cầu của chương trình, không thể phản ánh được nỗ lực học tập trong nhiều năm của học sinh. Nó chỉ là một lát cắt rất hẹp, tập trung chủ yếu vào kiến thức học thuật ở một số môn học nhất định.

Một “mỏ neo” thiếu vững chắc

Việc coi kỳ thi 12/12 làm “mỏ neo” để chuẩn hóa cho tuyển sinh đại học, thoạt nghe có vẻ là một lựa chọn hợp lí về mặt quản lý nhà nước vì nó đơn giản, có dữ liệu lớn và mang tính toàn quốc. Đó còn chưa kể, kỳ thi này còn giống như phao cứu sinh cho những học sinh có hoàn cảnh khó khăn, ở vùng nông thôn, vùng sâu vùng xa không có điều kiện kinh tế để theo học và thi các chứng chỉ quốc tế đắt đỏ như IELTS. Tuy nhiên, nó tạo ra một bài toán kỹ thuật nan giải.

Để hiểu sự nan giải này, trước hết cần nhìn vào khoa học đo lường trong giáo dục (psychometrics). Theo các chuyên gia hàng đầu thế giới như M.J. Kolen và R.L. Brennan trong công trình kinh điển Equating (Quy bằng), Scaling (Tạo thang đo), Linking (Liên kết), việc so sánh hay quy đổi điểm số giữa các bài thi khác nhau phải tuân theo những nguyên tắc kỹ thuật vô cùng nghiêm ngặt. Có ba cấp độ chính:

1. Equating (Quy bằng): Đây là cấp độ cao nhất và cũng đòi hỏi khắt khe nhất, nhằm mục đích làm cho điểm số từ các đề thi khác nhau có thể hoán đổi hoàn toàn cho nhau. Điều này giống như việc bạn có thể dùng 1 Euro thay cho 1.07 USD vì chúng cùng đo lường một thứ là “giá trị tiền tệ”. Điều kiện tiên quyết, sống còn của Equating là các bài thi phải đo lường cùng một cấu trúc năng lực (construct).

2. Scaling (Tạo thang đo): Tập trung vào việc xây dựng một thang điểm có ý nghĩa để so sánh sự tiến bộ của học sinh qua thời gian hoặc các cấp học khác nhau.

3. Linking (Liên kết): Là cấp độ rộng nhất và phổ biến nhất, chỉ thiết lập một mối quan hệ thống kê giữa các bài thi không được xây dựng theo cùng tiêu chí, hoặc đo lường những cấu trúc năng lực khác nhau. Việc này giống như tìm mối liên hệ giữa nhiệt độ (độ C) và tốc độ gió (km/h) – chúng có thể liên quan, nhưng bạn không thể dùng độ C để thay thế cho km/h. Linking không cho phép điểm số hoán đổi cho nhau.

Khi Bộ GD&ĐT công bố bảng bách phân vị và yêu cầu các trường quy đổi, về bản chất là họ đang sử dụng một kỹ thuật có tên Equipercentile (quy bằng theo phân vị). Kỹ thuật này xếp hạng thí sinh và cho biết một người ở top 10% của kỳ thi A sẽ tương ứng với top 10% của kỳ thi B. Nhưng nó chỉ thực sự là “Equating” khi hai kỳ thi A và B đo cùng một cấu trúc năng lực (constructs). Nếu không, nó chỉ là “Linking”. Đây chính là khởi nguồn khoa học của mọi rắc rối trong mùa tuyển sinh 2025. Làm sao có thể dùng điểm của một kỳ thi đo kiến thức phổ thông để quy đổi với điểm của một kỳ thi đánh giá năng lực tư duy (như HSA của ĐHQG Hà Nội) hay năng lực sử dụng ngôn ngữ trong môi trường học thuật (như IELTS)? Các bài thi này đo những cấu trúc năng lực hoàn toàn khác nhau. Liệu dừng lại ở mức “linking” như vậy có đảm bảo công bằng cho các thí sinh?

Với giới hạn về dữ liệu và năng lực kĩ thuật, cộng thêm dưới áp lực phải công bố điểm chuẩn trong một thời gian ngắn, không một cơ sở giáo dục nào có đủ khả năng đưa ra câu trả lời thỏa đáng và xa hơn nữa là giải trình báo cáo kĩ thuật về phương pháp luận, cỡ mẫu nghiên cứu hay sai số thống kê về sự quy đổi này. Việc ép các bài thi hoàn toàn khác nhau vào cùng một hệ quy chiếu mà không có các nghiên cứu đối sánh bài bản, cẩn thận là một giả định đầy rủi ro và thiếu cơ sở khoa học. Với vai trò điều hành trung tâm của Bộ Giáo dục và Đào tạo, mang cảm giác có vẻ chính sách bị “giật cục”, khi đưa ra một công cụ kỹ thuật mà chưa lường hết được sự phức tạp và những hệ lụy trong thực thi.

Kinh nghiệm của bang New South Wales, Úc

Liệu có cách nào vẫn dùng điểm thi 12/12 nhưng vẫn đánh giá được năng lực, quá trình rèn luyện suốt những năm học phổ thông của học sinh và xét tuyển đại học hay không?

Bang New South Wales (NSW) của Úc được xem là một trong những hệ thống tuyển sinh đại học ổn định, minh bạch và đáng tin cậy nhất thế giới. Sau hơn ba mươi năm vận hành, họ đã tinh chỉnh một mô hình “hai trong một” – kỳ thi HSC (Higher School Certificate) vừa để xét tốt nghiệp phổ thông, vừa là cơ sở tuyển sinh đại học – nhưng vẫn duy trì được sự tin tưởng cao của xã hội.

Điều tạo nên thành công không nằm ở cấu trúc đề thi, mà ở cách phân chia rành mạch vai trò giữa các bên tham gia: (1) Trường phổ thông, (2) NESA (Cơ quan tiêu chuẩn và khảo thí), và (3) UAC (Trung tâm tuyển sinh đại học). Ba mắt xích này liên kết với nhau theo nguyên tắc “mỗi bên làm đúng phần việc của mình”, tạo nên một chuỗi vận hành liền mạch từ lớp học đến giảng đường đại học.

Trường phổ thông – Tự chủ trong đánh giá, chịu trách nhiệm về chất lượng

Ở tầng thứ nhất, các trường trung học tại NSW có mức độ tự chủ chuyên môn rất cao trong việc đánh giá quá trình học tập của học sinh. Giáo viên được phép thiết kế các bài đánh giá (assessment tasks) như bài kiểm tra, dự án nghiên cứu, thuyết trình hay thực hành, miễn là bám sát khung chương trình và hướng dẫn do NESA ban hành.

Kết quả của những bài đánh giá này được tổng hợp theo trọng số để hình thành điểm đánh giá nội bộ (school-based assessment mark), đồng thời nhà trường xác lập thứ hạng (rank order) của từng học sinh trong mỗi môn học. Đây là một dạng “học bạ định lượng” được xây dựng từ quá trình học tập thực tế, chứ không phải từ những nhận xét định tính trong sổ liên lạc.

Trước khi gửi dữ liệu lên NESA, trường phải tự kiểm tra nội bộ (internal verification) nhằm bảo đảm tính công bằng và độ chính xác của điểm số. Tất cả hồ sơ, bài làm và biên bản chấm điểm đều phải được lưu giữ ít nhất 12 tháng để phục vụ công tác hậu kiểm (audit). NESA có thể chọn ngẫu nhiên một số trường mỗi năm để kiểm tra đối chiếu (random audit), đảm bảo quy trình đánh giá được thực hiện nghiêm túc, minh bạch và nhất quán.

Qua đó nhận thấy, vai trò nổi bật của trường học là: Đánh giá quá trình học tập thực chất của học sinh, tạo ra dữ liệu gốc cho toàn hệ thống, đồng thời chịu trách nhiệm giải trình trước xã hội về tính trung thực và chất lượng dữ liệu đó. Trường có quyền tự chủ chuyên môn, nhưng đi kèm với trách nhiệm và nghĩa vụ kiểm định.

NESA – Trọng tài kỹ thuật bảo đảm tính công bằng học thuật

Tầng thứ hai là NESA (New South Wales Education Standards Authority) – một cơ quan công quyền độc lập, chịu trách nhiệm trước Bộ trưởng Giáo dục bang NSW. NESA là nơi ban hành chuẩn chương trình, hướng dẫn đánh giá, tổ chức kỳ thi HSC toàn bang – cùng đề, cùng thời gian, cùng quy trình chấm. Sau khi nhận dữ liệu school-based assessment mark và rank order từ các trường, NESA tiến hành quy trình hiệu chỉnh (moderation) để đảm bảo rằng điểm của học sinh giữa các trường khác nhau có thể so sánh được một cách công bằng.

Quy trình hiệu chỉnh dựa trên ba nguyên tắc:

(1) Giữ nguyên thứ hạng (rank order) của học sinh trong trường;

(2) Căn chỉnh điểm cao nhất và thấp nhất của trường sao cho khớp với điểm cao nhất và thấp nhất của nhóm học sinh đó trong kỳ thi HSC tập trung;

(3) Điều chỉnh toàn bộ phân bố điểm (có thể tuyến tính hoặc phi tuyến) để phù hợp với phổ điểm của bài thi HSC.

Nhờ vậy, học sinh ở một thị trấn nhỏ như Armidale và học sinh ở Sydney được đặt trên cùng một thước đo khách quan. Sau khi hiệu chỉnh, mỗi học sinh có hai thành phần điểm: điểm đánh giá nội bộ đã chuẩn hóa (moderated school mark) và điểm thi HSC (HSC exam mark). NESA tính trung bình hai phần này để ra điểm HSC cuối cùng (HSC mark), cấp bằng tốt nghiệp Higher School Certificate, rồi gửi toàn bộ dữ liệu cho UAC để thực hiện giai đoạn tiếp theo – quy đổi phục vụ tuyển sinh đại học.

Tóm lại NESA là “trọng tài kỹ thuật” của hệ thống giáo dục của Bang. NESA chuẩn hóa dữ liệu do các trường gửi lên, đảm bảo tính công bằng và thống nhất giữa các trường, giữa các vùng, và giữa các năm học.

UAC – Bộ quy đổi dữ liệu học thuật thành cơ hội đại học

Tầng cuối cùng là UAC (University Admissions Centre) – một tổ chức phi lợi nhuận do các trường đại học thành lập để phối hợp công tác tuyển sinh. UAC không tổ chức thi, không dạy học, mà thực hiện nhiệm vụ quy đổi và chuẩn hóa dữ liệu học thuật từ NESA để phục vụ tuyển sinh đại học.

Quy trình của UAC gồm hai bước kỹ thuật:

(1) Chuẩn hóa (scaling): UAC phân tích dữ liệu toàn bang để điều chỉnh điểm của các môn học khác nhau, đảm bảo rằng học sinh học các môn có độ khó khác nhau vẫn có cơ hội ngang nhau. Một môn “dễ” sẽ không còn là lợi thế, và một môn “khó” cũng không còn là gánh nặng.

(2) Xếp hạng (ranking): Sau khi chuẩn hóa, UAC tính tổng điểm từ 10 đơn vị học tốt nhất (tương đương 5 môn), rồi chuyển đổi thành ATAR (Australian Tertiary Admission Rank) – tức là thứ hạng phần trăm của học sinh trong toàn bang. Ví dụ, ATAR 85.00 có nghĩa học sinh đó nằm trong top 15% của bang NSW.


UAC công bố báo cáo kỹ thuật hằng năm, trong đó phương pháp tính toán được giữ cố định, chỉ thay đổi dữ liệu đầu vào của từng năm. Các trường đại học sử dụng ATAR như một đơn vị đo chuẩn chung trong xét tuyển, đồng thời có thể áp dụng thêm chính sách ưu tiên (Educational Access Scheme – EAS) cho học sinh ở vùng sâu, vùng xa, hoặc có hoàn cảnh khó khăn. Điều quan trọng là: mọi chính sách ưu tiên xã hội được thực hiện ở tầng tuyển sinh, không can thiệp vào điểm học thuật của HSC, giúp hệ thống vừa công bằng vừa nhân văn.

Vai trò nổi bật của UAC là “bộ quy đổi dữ liệu” giúp chuyển điểm học thuật thành cơ hội học đại học. Giữ cho quá trình tuyển sinh vừa khách quan về học thuật, vừa linh hoạt trong chính sách xã hội.

Hệ thống của bang NSW vận hành như một chuỗi trách nhiệm liền mạch và tự kiểm soát: trường học tự chủ trong đánh giá, NESA đảm bảo chuẩn hóa và minh bạch, UAC quy đổi dữ liệu thành cơ hội, và đại học tự chủ trong tuyển chọn. Không ai làm thay ai, cũng không ai đùn đẩy trách nhiệm cho ai.

Chính sự phân tách rõ ràng này giúp kỳ thi HSC trở thành “cái gốc để cây đứng thẳng” – giữ thước đo trung thực cho toàn hệ thống giáo dục, đồng thời mở ra những nhánh phát triển đa dạng cho giáo dục đại học.

Việt Nam có thể học hỏi gì?

Ta không nên kỳ vọng kỳ thi 12/12 có thể đo lường toàn bộ thành quả của GDPT 2018 mà nó chỉ hướng tới đo năng lực học thuật cốt lõi của chương trình (bao gồm năng lực kiến thức, tư duy và kĩ năng đã học). Việt Nam vẫn cần đánh giá qua học bạ bởi đây là dữ liệu duy nhất có khả năng phản ánh những phẩm chất và kĩ năng mềm của học sinh. Tuy nhiên, học bạ chỉ đáng tin khi có cơ chế kiểm định độc lập, “hiệu chỉnh” để không lạm phát, trong đó điểm nội bộ chỉ chiếm 50% và được căn chỉnh dựa trên kết quả của kỳ thi tốt nghiệp trung học phổ thông như NESA đang làm. Đây là cách kết hợp hài hòa giữa đánh giá quá trình học tập và kỹ thi chuẩn hóa.

Mô hình của NSW cũng cho thấy rằng Bộ Giáo dục không nên “ôm” việc ra đề, xét tốt nghiệp, quy đổi điểm thi đại học mà cần các cơ quan kỹ thuật giữ vai trò độc lập làm thay như NESA hay UAC. Theo đó, các trường vẫn được tự quyết cách thức xét tuyển đại học, thậm chí vẫn có thể tổ chức kì thi riêng nếu muốn đánh giá năng lực đặc thù khác của học sinh, nhưng chỉ là “bổ sung thêm” bên cạnh dữ liệu điểm xét tuyển (đã được hiệu chỉnh, tạo thang đo từ điểm học bạ, điểm thi tốt nghiệp…) đã qua kiểm định và công khai báo cáo kĩ thuật.

Sự công bằng vùng miền cũng không nhất thiết phải thêm vào điểm thi. Trên thực tế, cách hiệu chỉnh của NESA cũng đã cân nhắc đến sự khác biệt về điều kiện địa lí, vùng miền. Nếu vẫn muốn nhấn mạnh thêm yếu tố khu vực và những ưu tiên khác (như giải thưởng học thuật và ngoại khóa, con thương binh – liệt sĩ…) thì coi nó là một tiêu chí, một lợi thế của sinh viên đó khi xét tuyển vào đại học, và điều này tùy thuộc vào quyết định của từng trường.

Bức tranh tuyển sinh của NSW cho thấy một nguyên lý giản dị: công bằng không phải là cộng điểm, mà là làm sạch dữ liệu. Khi trường học được tin tưởng nhưng vẫn bị kiểm định, khi cơ quan khảo thí chỉ làm trọng tài kỹ thuật, và khi đại học tự chủ trong minh bạch, thì kỳ thi cuối cấp vừa có thể là kết thúc của phổ thông, vừa là khởi đầu cho giáo dục đại học. Kỳ thi 12/12 của Việt Nam cũng có thể làm được điều đó – nếu chúng ta để nó làm đúng phần việc của mình: duy trì chuẩn học thuật tối thiểu và sự công bằng dữ liệu. □

Bài đăng Tia Sáng số 19/2025

Tác giả

(Visited 36 times, 36 visits today)