Kỳ thi quốc gia hai trong một: Những bất cập mang tính kỹ thuật

Bài viết dưới đây, thảo luận hai thay đổi lớn và gây nhiều tranh cãi của kỳ thi quốc gia trong vòng bốn năm qua: sáp nhập kỳ thi tốt nghiệp trung học phổ thông (THPT) và tuyển sinh đại học làm một và chuyển hình thức thi tất cả các môn (trừ môn Văn) sang trắc nghiệm.


Thí sinh kỳ thi THPT quốc gia 2018. Nguồn ảnh: Soha.

Một đề thi có thể đạt được hai mục đích?

Trong nhiều năm, hai kỳ thi quốc gia bao gồm tốt nghiệp THPT và tuyển sinh đại học được tổ chức độc lập, tiếp nối nhau thường cách nhau khoảng 2 tháng. Kể từ năm 2015, Bộ Giáo dục và đào tạo (GD&ĐT) đã ghép hai kỳ thi này vào làm một, tức là tổ chức 1 kỳ thi tốt nghiệp THPT và sử dụng kết quả bài thi này để tuyển sinh đại học. Đây là một trong những thay đổi lớn nhất trong công cuộc cải cách thi cử nói riêng và giáo dục nói chung. Dù đã trải qua bốn kỳ thi ghép, việc có nên và có thể ghép hai kỳ thi này vào một bài thi vẫn gây nhiều tranh cãi.

Theo lý thuyết khảo thí, tùy vào mục đích và tính chất của đánh giá mà đề thi có thể là một trong hai dạng quy chiếu nhóm chuẩn (norm-referenced) hoặc quy chiếu tiêu chí (criteria-referenced). Về bản chất, kỳ thi tốt nghiệp THPT không nhằm so sánh năng lực hay kiến thức của các thí sinh với nhau mà chỉ đánh giá thí sinh có đạt hay không đạt một ngưỡng chuẩn, nên đây là kỳ thi thuộc dạng quy chiếu tiêu chí. Trong khi đó kỳ thi tuyển sinh đại học với mục đích đánh giá sự khác biệt về năng lực, kiến thức của thí sinh để tuyển chọn đầu vào các trường đại học, đòi hỏi tính phân loại cao, đây là đánh giá quy chiếu nhóm chuẩn. Có thể diễn giải một cách đơn giản, đề thi tốt nghiệp cần có độ khó ở mức trung bình, còn đề thi đại học cần phân loại học sinh và do vậy độ khó cần phải ở mức cao. Do tính chất và mục đích của hai kỳ thi này khác nhau, việc ghép chúng vào một bài thi là khiên cưỡng và có thể gây ra nhiều hệ luỵ.

Trên thực tế rất khó thiết kế đề thi sao cho đảm bảo cùng lúc thực hiện được mục tiêu của hai kỳ thi và kiểm soát mức độ khó của đề thi theo thiết kế này. Kết quả kỳ thi quốc gia 2017 cho thấy đề thi các môn quá dễ, điểm 10 tràn lan, dẫn tới độ phân loại rất thấp, khiến việc tuyển sinh vào đại học kém hiệu quả. Ngược lại, kỳ thi 2018 vừa kết thúc, dù chưa có kết quả thi, các đề thi đều được đánh giá là quá khó, quá dài, và một số môn sẽ hiếm có điểm tuyệt đối. Mức độ khó cao rõ ràng gây áp lực không nhỏ và tiêu cực về tâm lý cho thí sinh và phụ huynh nói chung. Nghiêm trọng hơn, đề thi tốt nghiệp quá khó gây thêm bất lợi cho nhóm học sinh yếu thế, đặc biệt những học sinh ở nông thôn và miền núi, có thể làm gia tăng bất bình đẳng trong giáo dục.

Ngoài ra, việc đánh giá sơ bộ đề thi dựa trên kết quả thi thông qua xem xét phổ điểm cũng hầu như không hiệu quả. Đối với bài thi quy chiếu tiêu chí, phổ điểm không tuân theo phân bố chuẩn hình chuông (bell curve). Do vậy, phổ điểm của các bài thi tốt nghiệp sẽ chủ yếu lệch đuôi (skewed) về nửa bên trái của thang điểm (trong khoảng từ 5 đến 10 điểm) nếu điểm 5 là điểm đạt yêu cầu, tức là phần lớn thí sinh sẽ có điểm từ 5 trở lên. Trái lại, với kỳ thi tuyển sinh đại học, nếu đề thi chuẩn, điểm thi sẽ tuân theo quy luật phân bố chuẩn.

Việc ghép hai kỳ thi tốt nghiệp và tuyển sinh đại học vào một bài thi khiến cho việc xem xét, phân tích phổ điểm không thể thực hiện theo các nguyên tắc thông thường. Có thể suy luận rằng nếu đề thi tốt, tức là có thể phục vụ được cả hai mục đích xét tốt nghiệp và xét tuyển đại học thì kết quả sẽ có thể là hình chuông tương đối chuẩn nhưng nằm lệch về nửa bên phải của dải điểm và có thể thấy khoảng phân loại giảm chỉ còn ½, đồng nghĩa với đó là mức độ có thể phân loại học sinh sẽ nhỏ đi. Việc thiết kế câu hỏi thi với chênh lệch độ khó nhỏ và độ phân loại cao là không đơn giản bởi lẽ không phải cứ độ khó cao thì dẫn tới độ phân loại cao. Với năng lực và kinh nghiệm khảo thí hiện tại, việc thiết kế và xây dựng đề thi đáp ứng cả hai mục đích nói trên là không khả thi, và không phải là giải pháp phù hợp.

Bộ trưởng Bộ GD&ĐT Phùng Xuân Nhạ đi thị sát điểm thi tại Gia Lâm. Và tại hội nghị trực tuyến toàn quốc đánh giá tình hình kinh tế – xã hội 6 tháng đầu năm và triển khai nhiệm vụ 6 tháng cuối năm 2018 ngày 2/7, ông đánh giá kỳ thi THPT quốc gia đạt được mục tiêu đề ra, an toàn, nghiêm túc, khách quan và đặc biệt nhẹ nhàng. Ảnh: Dân trí. 

Thi trắc nghiệm liệu đã đủ?

Một trong những thay đổi lớn trong công tác thi cử, tuyển sinh là việc chuyển đổi từ dạng bài thi tự luận đối với tất cả các môn học trong những năm 80-90 sang hình thức trắc nghiệm. Đầu những năm 2000, trắc nghiệm mới chỉ chiếm một phần và được áp dụng với một số môn như Ngoại ngữ, đến nay đã chuyển sang tất cả môn Toán, Lý, Hoá, thậm chí cả các môn xã hội vốn chỉ dùng hình thức tự luận như Sử, Địa lý. Từ năm 2017, chỉ còn duy nhất môn Ngữ văn sử dụng dạng câu hỏi thi tự luận. Việc sử dụng dạng câu hỏi thi trắc nghiệm được giải thích là để đảm bảo tính khách quan trong đánh giá. Tuy nhiên đây có phải là dạng câu hỏi phù hợp cho các kỳ thi có tầm quan trọng (high-stake) như kỳ thi tốt nghiệp quốc gia hay đề thi tuyển sinh đại học hay không là vấn đề cần xem xét kỹ lưỡng và đánh giá qua các kỳ thi đã qua.

Có thể thấy rằng mặc dù sử dụng loại câu hỏi trắc nghiệm, các đề thi của Bộ chỉ có duy nhất một dạng câu hỏi trắc nghiệm có nhiều đáp án (multiple choice). Đây là dạng câu hỏi ‘lựa chọn đáp án cho sẵn’ và cùng loại này còn có những hình thức câu hỏi khác như câu hỏi ghép nối (matching), lựa chọn Đúng/Sai/Không liên quan (True/False/NA).

Ưu, nhược điểm của câu hỏi trắc nghiệm so với câu hỏi tự luận

Dạng câu hỏi trắc nghiệm được cho là đánh giá khách quan do có đáp án đúng/sai rõ ràng, không phụ thuộc vào ý chí hay cảm xúc của người chấm. Loại câu hỏi này cũng cho phép phân tích chi tiết đáp án lựa chọn (response) bất kể câu trả lời của học sinh đúng hay sai. Và do tính chất ‘không phụ thuộc vào con người’ này mà thông thường loại câu hỏi này sẽ được dùng cho các bài thi trên máy tính hoặc sử dụng máy quét để chấm bài, ví dụ bài thi TOEFL của ETS, Hoa Kỳ, để hạn chế sai sót trong quá trình chấm điểm và quản lý điểm thi.

Cần biết rằng loại câu hỏi trắc nghiệm nhiều lựa chọn (multiple choice questions) được dùng rất rộng rãi trong giáo dục Mỹ cho tới tận thập kỷ 90 của thế kỷ trước. Bắt đầu từ cuối những năm 90, các học giả và nghiên cứu giáo dục đã chỉ trích loại câu hỏi thi này là thúc đẩy học vẹt, khuyến khích phát triển các kỹ năng đơn giản, trí nhớ ngắn hạn, không giúp phát triển tư duy bậc cao cho người học và phương pháp học tập tích cực, hạn chế năng lực diễn đạt và trình bày của học sinh (Karen Scouller 1998) (Gunderman and Ladowski 2013; Roediger and Marsh 2005). Mặc dù với số lượng câu hỏi thường nhiều hơn rất nhiều so với hình thức tự luận, tức là có thể đánh giá phạm vi kiến thức rộng hơn, nhưng học sinh có thể sử dụng mẹo để làm bài mà không nhất thiết phải nắm vững kiến thức. Đó là chưa kể có xác xuất may mắn chọn câu trả lời đúng ngay cả khi hoàn toàn không nắm được kiến thức. Đối với các môn học như Toán hay Vật lý, loại câu hỏi trắc nghiệm không ghi nhận được cách thức lập luận để giải bài toán, qua đó đánh giá năng lực tư duy và giải quyết vấn đề của người học. Hơn nữa, viết câu hỏi trắc nghiệm nhiều lựa chọn tốt là không hề dễ dàng, đặc biệt là thiết kế câu hỏi chính xác theo mức độ khó định sẵn. Một câu hỏi trắc nghiệm tốt cần phải đáp ứng rất nhiều yêu cầu kỹ thuật.

Ngoài dạng câu hỏi trắc nghiệm, các câu hỏi thi cho phép/yêu cầu thí sinh ‘viết câu trả lời’ được gọi là dạng câu hỏi tự luận. Loại câu hỏi tự luận thường dễ viết, nhưng khó chấm và phụ thuộc vào chủ quan của người chấm, như đối với môn Văn.

Mỗi dạng câu hỏi đều có những điểm mạnh và bất cập riêng. Do vậy thông thường một đề thi tốt thường có xu hướng kết hợp nhiều dạng câu hỏi khác nhau chứ không chỉ sử dụng một loại nào đó. Có thể thấy điều này ở các bài thi chuẩn hoá quốc tế có uy tín như bài thi IELTS do Trung tâm Khảo thí tiếng Anh của Đại học Cambridge phát triển hoặc các bài thi quốc gia NAPLAN của Úc và GCSE của Anh. Những bài thi hoàn toàn bằng hình thức trắc nghiệm như TOEFL hay SAT đòi hỏi rất cao về kỹ thuật viết câu hỏi thi, sự hỗ trợ của công nghệ, phần mềm trong việc tổ chức thi và việc kiểm nghiệm câu hỏi thi vô cùng chặt chẽ, ngặt nghèo.

Với một bài thi có tầm quan trọng như bài thi tốt nghiệp hoặc tuyển sinh đại học, nhất thiết hình thức thi, dạng câu hỏi thi và format bài thi phải được xem xét, tính toán kỹ lưỡng và thiết kế với sự cẩn trọng khoa học.

Bài thi chuẩn hoá và quy trình chuẩn hoá câu hỏi thi

Thông thường ở các nước với bài thi có tầm quan trọng như hai bài thi nói trên đều phải là đề thi chuẩn hoá (standardized tests). Đây là bài thi yêu cầu tất cả thí sinh làm bài trong điều kiện, cách thức như nhau, và được chấm theo cùng một cách nhằm đặt ra chuẩn chung (Issitt and McMahon 2013).

Đã từ lâu các tổ chức khảo thí lớn trên thế giới như ETS, Trung tâm Khảo thí tiếng Anh Cambridge đã áp dụng quy trình chuẩn hoá câu hỏi thi của họ. Tuỳ vào loại câu hỏi mà quy trình cũng như kỹ thuật sử dụng để chuẩn hoá câu hỏi thi có thể khác nhau. Đối với đề thi diễn ra mỗi năm một lần như đề thi tốt nghiệp THPT sử dụng loại câu hỏi thi trắc nghiệm nhiều lựa chọn, thông thường để đảm bảo chất lượng câu hỏi và đề thi thời gian cần thiết cho quá trình xây dựng và duyệt đề thi thường kéo dài hàng năm.

Quy trình xây dựng ngân hàng câu hỏi thi và đề thi ở các tổ chức khác nhau sẽ có khác biệt, tuy nhiên thông thường quy trình này bao gồm các bước cơ bản sau:

1. Xác định mục đích và phạm vi đánh giá: do hội đồng thi thực hiện;

2. Xây dựng ma trận, cấu trúc đề thi: xác định phạm vi nội dung đánh giá, loại câu hỏi thi, thời lượng bài thi và loại bài thi quy chiếu tiêu chí hay quy chiếu nhóm chuẩn;

3. Biên soạn, biên tập, rà soát và sàng lọc câu hỏi thi: do chuyên gia biên soạn đề thi, chuyên gia khảo thí, giáo viên, chuyên gia trong lĩnh vực chuyên môn được đánh giá và người biên tập câu hỏi thi thực hiện. Trong giai đoạn này, một câu hỏi thi lần lượt được chuyển qua những thành viên này đánh giá, rà soát về kỹ thuật viết câu hỏi thi, ngôn ngữ, văn hoá và có thuộc phạm vi nội dung đánh giá hay không; nhìn chung là đánh giá tính giá trị (validity) bằng phương pháp chuyên gia.

4. Thử nghiệm, đánh giá câu hỏi thi: thử nghiệm đối với đối tượng tương đương thí sinh dự kiến, sử dụng các phân tích thống kê để đánh giá độ tin cậy (reliability), độ phân biệt, và độ độ khó của câu hỏi thi (IRT-Item Response Theory); sàng lọc những câu hỏi thi quá dễ hoặc quá khó hoặc có độ phân biệt thấp hoặc âm; đồng thời ghi lại thời gian cần thiết để trả lời câu hỏi để căn định thời gian làm bài phù hợp.

5. Xây dựng và đánh giá đề thi: trộn các câu hỏi thi có độ khó tương đương theo ma trận nội dung, dạng câu hỏi để tạo thành các đề thi khác nhau; thử nghiệm và đánh giá độ tin cậy của đề thi.

6. Tiếp tục đánh giá và phát triển ngân hàng câu hỏi thi: sử dụng kết quả thi để tiếp tục phân tích, đánh giá và sàng lọc câu hỏi thi. Đối với một số kỳ thi có tính chất quan trọng sống còn với thí sinh, đôi khi cần thiết phải phân tích kết quả thi để rà soát sai sót của đề thi và đáp án và có điều chỉnh cần thiết trước khi chấm và công bố kết quả.

Quy trình chuẩn hoá câu hỏi thi thường được thực hiện chặt chẽ nhằm đảm bảo tính giá trị, độ tin cậy cũng như kiểm soát độ dài hợp lý của đề thi trong thời gian làm bài cụ thể.

Một số gợi ý về kỳ thi 2 trong 1

Đối với kỳ thi 2 trong 1: Nên xem xét triển khai xét tốt nghiệp THPT dựa trên học bạ THPT của người học. Việc xét tốt nghiệp theo học bạ sẽ có tác dụng tăng cường tính tự chủ và trách nhiệm giải trình của nhà trường và giáo viên trong quá trình tổ chức quản lý và giảng dạy, phù hợp với lộ trình cải cách giáo dục trong thời gian tới, cụ thể là những thay đổi về chương trình giáo dục, phương pháp sư phạm và kiểm tra đánh giá ở bậc phổ thông. Khi đó kỳ thi quốc gia chỉ còn phục vụ mục đích tuyển sinh đại học. Việc kiểm soát độ khó, độ phân loại, và chất lượng đề thi tuyển sinh sẽ dễ dàng và hiệu quả hơn, đáp ứng tốt hơn nhu cầu của các trường đại học muốn sử dụng điểm thi tuyển sinh.

Một khi chỉ còn một bài thi tuyển sinh đại học, tính chất bắt buộc của kỳ thi không còn. Người học có thể lựa chọn tham dự kỳ thi nếu muốn tiếp tục học ở bậc đại học. Cùng với việc trao quyền tự chủ cho các trường đại học trong công tác tuyển sinh, số lượng thí sinh tham dự kỳ thi tuyển sinh sẽ giảm, quy mô và gánh nặng kỳ thi cũng giảm tương ứng.

Về định dạng đề thi, dạng câu hỏi thi: cần nghiên cứu và đánh giá lại việc sử dụng duy nhất một hình thức câu hỏi trắc nghiệm nhiều lựa chọn đối với các môn khoa học như Toán; tham khảo ý kiến chuyên gia ngành về định dạng đề thi nhằm đảm bảo đạt được mục tiêu đánh giá.
Về công tác ra đề thi: cần xây dựng quy trình chuẩn hoá đề thi chặt chẽ và các quy định về đảm bảo chất lượng đề thi nhằm nâng cao trách nhiệm giải trình trong khâu ra đề thi và cải thiện chất lượng đề thi.
Về công tác khảo thí: Hằng năm, sau khi có kết quả thi, cần tổ chức phân tích, đánh giá đề thi và câu hỏi thi để làm cơ sở cho các điều chỉnh về đề thi trong các năm tiếp theo.

Tài liệu tham khảo
Gunderman, R. B., & Ladowski, J. M. (2013). Educational Perspectives: Inherent Limitations of Multiple-Choice Testing. [Article]. Academic Radiology, 20, 1319-1321, doi:10.1016/j.acra.2013.04.009.

Standardized testing (2013). Great Neck Publishing.

Karen Scouller, a. (1998). The Influence of Assessment Method on Students’ Learning Approaches: Multiple Choice Question Examination versus Assignment Essay. [research-article]. Higher Education(4), 453.

Roediger, H. L., & Marsh, E. J. (2005). The Positive and Negative Consequences of Multiple-Choice Testing. Journal of Experimental Psychology: Learning, Memory, and Cognition, 31(5), 1155-1159.

Tác giả