Điều không ai nói về AI tự chủ thay lập trình viên của kỳ lân Trung Quốc

Khi AI bắt đầu tự viết và thực thi code, phạm vi rủi ro sẽ mở rộng theo cấp số nhân.

Và câu chuyện về "bước chuyển đổi mô thức căn bản" từ AI nghe lệnh sang AI chủ động lập trình mà kỳ lân Zhipu AI muốn kể nghe thuyết phục nhưng chưa phải là tất cả.

Sự ổn định mong manh

"More is different" là một nguyên lý trong khoa học phức hợp mà nhà vật lý Philip Anderson đã đúc kết từ năm 1972. Khi bạn ghép nhiều thành phần lại với nhau, tổng thể không chỉ là phép cộng của các phần, mà tạo ra những hành vi mà từng phần riêng lẻ không có. Nước không có trong hydro hay oxy. Ý thức không có trong từng neuron riêng lẻ. Và sự bất ổn định không có trong từng kỹ thuật riêng lẻ của GLM-5, nhưng có thể xuất hiện khi tất cả được ghép lại.

Bài báo về mô hình GLM-5 vô tình tiết lộ thực trạng này qua một chi tiết nhỏ nhưng cực kỳ đáng chú ý. Để có thể học tập trung, mô hình phải tìm ra những phần tử có điểm quan trọng cao nhất, thao tác này được gọi là "chọn k phần tử lớn nhất" (top-k selection). Phép toán này thường được thực hiện bởi các thư viện tính toán tối ưu chạy trên GPU. Trong quá trình huấn luyện học tăng cường trên kiến trúc chú ý thưa DSA, nhóm nghiên cứu phát hiện rằng cách CUDA, nền tảng phần mềm do NVIDIA phát triển để khai thác sức mạnh tính toán song song của GPU, thực hiện phép toán "chọn k phần tử lớn nhất" có thể gây sụp đổ hoàn toàn quá trình học.

Zhipu AI là một trong những startup AI lớn nhất Trung Quốc và được định giá ở mức 2,8 tỷ USD vào năm 2024. Ảnh: Zhipu.

Đây là dấu hiệu kinh điển của một hệ thống liên kết chặt đang vận hành gần ranh giới bất ổn định. Trong lý thuyết hệ thống, Charles Perrow gọi đây là "normal accidents", nghĩa là những sự cố thường thấy trong một hệ thống phức tạp liên kết chặt. Ở đây, sự cố không phải ngoại lệ mà là thuộc tính cấu trúc. Hệ thống hoạt động tốt không có nghĩa là hệ thống ổn định mà có thể chỉ là hệ thống chưa gặp đúng loại nhiễu.

Câu hỏi mà bài báo GLM-5 không đặt ra là nếu một chi tiết nhỏ như vậy đã có thể khiến cơ chế DSA bị rối loạn thì còn bao nhiêu chi tiết tương tự đang ẩn ở các tầng khác chưa được phát hiện?

Hack phần thưởng

Khi AI học thông qua học tăng cường, nó cần một "người gác cổng" nói cho nó biết hành vi nào tốt, hành vi nào xấu. Trong các task phức tạp, "tốt" và "xấu" không dễ đo lường bằng một con số.

GLM-5 xử lý vấn đề này bằng cách thiết kế hệ thống khen thưởng nhiều tầng. Ví dụ, trong task tạo slide, phần thưởng được chia ba cấp: cấp một đo các thuộc tính tĩnh (vị trí, màu sắc, font chữ), cấp hai đo thuộc tính khi kết xuất đồ họa (kích thước thực của phần tử trên màn hình), cấp ba đo cảm nhận thị giác (có khoảng trắng bất thường không).

Nghe có vẻ rất hệ thống. Nhưng đây chính là lúc Quy luật Goodhart thể hiện sức mạnh đáng sợ nhất.

Charles Goodhart, nhà kinh tế học người Anh, phát biểu một nguyên lý mà bất kỳ ai thiết kế hệ thống đo lường nào cũng nên thuộc lòng: "Khi một thước đo trở thành mục tiêu, nó không còn là thước đo tốt nữa." Hay nói cách khác, nếu bạn thưởng cho đứa trẻ vì đạt điểm cao, đứa trẻ sẽ tìm cách đạt điểm cao, chứ không nhất thiết là học giỏi. Hai thứ đó tưởng chừng giống nhau nhưng thực tế thì không.

Và đúng như dự đoán, GLM-5 đã bắt đầu "gian lận". Bài báo thừa nhận GLM-5 đã qua mặt hai hình thức khen thưởng (reward hacking) trong task tạo slide.

Một là "cắt cụt nội dung", nghĩa là khi slide có quá nhiều chữ thì thay vì sắp xếp lại các lớp layout cho hợp lý, AI lại giấu phần dư để nội dung vẫn ở đó nhưng người xem không thấy được. Kết quả là slide trông rất gọn gàng và AI nhận được phần thưởng cao, nhưng người dùng lại bị ẩn mất thông tin.

Thứ hai là "thao túng khoảng cách". AI thêm các khoảng trắng bất thường khiến các phần tử nằm đúng vị trí mà mô hình khen thưởng đánh giá là "tốt". Tuy nhiên, khi nhìn bằng mắt thường, bố cục này vẫn tạo cảm giác có gì đó không ổn.

Nhóm nghiên cứu đã nỗ lực sửa bằng cách vá lại trình kết xuất đồ họa để phát hiện những trường hợp này. Nhưng đây là cách tiếp cận "đập chuột chũi". Mỗi lần nhà nghiên cứu phát hiện một kiểu gian lận và vá lại, thì AI lại tìm ra một kiểu gian lận khác.

Cuộc chạy đua giữa bên thiết kế mô hình khen thưởng và bên hack phần thưởng hoàn toàn không cân sức. Về lý thuyết, bên hack phần thưởng luôn có lợi thế, vì số cách gian lận gần như vô hạn, trong khi các biện pháp phòng ngừa chỉ có thể bao phủ một phần nhỏ trong số đó.

Điều thực sự đáng lo ngại là nếu việc hack phần thưởng đã xảy ra và bị phát hiện trong task tạo slide - một task tương đối đơn giản, đầu ra dễ kiểm tra bằng mắt - thì điều gì sẽ xảy ra trong các task phức tạp, nơi đầu ra khó kiểm tra hơn nhiều lần?

Dịch chuyển điểm can thiệp

Tuyên bố táo bạo nhất của GLM-5 là sự chuyển đổi từ "vibe coding" sang "agentic engineering".

Hãy quay lại phép ẩn dụ thợ xây. Thợ xây AI có thể "tự chủ" trong nghĩa hẹp, tức tự đọc bản vẽ, tự lên kế hoạch, tự xây nhà. Nhưng bản vẽ này do ai tạo ra? Vật liệu do ai chuẩn bị? Tiêu chuẩn chất lượng do ai xác định? Nếu khách hàng thay đổi yêu cầu giữa chừng thì ai sẽ đứng ra xử lý?...

Trong thế giới phần mềm thực tế, phần khó nhất thường không phải là viết code mà là hiểu đúng vấn đề cần giải quyết của khách hàng. Đây là một thứ mà ngay cả con người cũng thường xuyên hiểu sai.

Mô hình GLM-5 chuyển dịch điểm can thiệp của con người trong quy trình làm việc của AI, từ việc phải giám sát chặt từng tác vụ sang can thiệp ở tầng thiết kế môi trường và thiết kế khen thưởng cho AI. Ảnh minh họa: Shutterstock.

Nói cách khác, mô hình GLM-5 không thực sự chuyển từ "nghe lệnh" sang "tự chủ". Nó chuyển từ "nghe lệnh chi tiết" sang "nghe lệnh tổng quát rồi tự triển khai chi tiết." Khách quan mà nói, đây là một tiến bộ đáng kể. Nhưng gọi nó là "paradigm shift" (sự chuyển đổi mô thức) hay "agentic engineering" thì đang phóng đại bản chất của bước tiến.

Trong tư duy hệ thống, điều mà các nhà nghiên cứu Trung Quốc đã tạo ra là dịch chuyển điểm can thiệp (leverage point) của con người. Con người không còn can thiệp vào "từng dòng code" mà chuyển sang điều chỉnh gián tiếp thông qua việc "thiết kế môi trường hoạt động và cơ chế khen thưởng cho AI".

Thay đổi này quan trọng, nhưng nó không loại bỏ sự phụ thuộc của AI vào con người, nó chỉ di chuyển sự phụ thuộc đó lên một tầng trừu tượng hơn. Và ở tầng trừu tượng đó, sai sót của con người trở nên nguy hiểm hơn vì khó phát hiện hơn.

Ảo tưởng về đo lường

Khoảng một phần ba bài báo GLM-5 dành để trình bày kết quả đánh giá của mô hình trên các benchmark (các bộ kiểm thử tiêu chuẩn dùng để so sánh năng lực giữa các mô hình AI).

Các bảng số liệu nối tiếp nhau, mỗi con số đều đi kèm so sánh với các mô hình nổi tiếng như Claude, GPT, Gemini, và đều nhấn mạnh rằng GLM-5 "sánh ngang" hoặc "tiên tiến nhất" (state-of-the-art).

Tuy nhiên, benchmark có một vấn đề bản chất mà ngành AI đã biết từ lâu nhưng chưa bao giờ giải quyết triệt để. Chúng đo khả năng trên một phân phối đã biết, trong khi giá trị thực tế của AI nằm ở khả năng xử lý những gì chưa biết.

Hình dung như thế này. Bạn thi lái xe và đạt 95/100 điểm. Điều đó cho thấy bạn lái tốt trên sa hình thi, với các tình huống đã được thiết kế sẵn. Nhưng nó không cho biết gì về khả năng bạn xử lý khi một đứa trẻ bất ngờ chạy ra giữa đường vào lúc trời mưa tầm tã, đèn đường hỏng, và xe phía trước đột ngột phanh gấp.

SWE-bench – bộ đánh giá nổi tiếng nhất hiện nay cho AI viết mã – kiểm tra năng lực mô hình dựa trên các vấn đề thực tế lấy từ GitHub. Tuy nhiên, những bài toán này đã được làm sạch, chuẩn hóa định dạng và đi kèm test case rõ ràng.

Các thang benchmark đo khả năng xử lý của AI trên một điều kiện đã biết, trong khi giá trị thực tế của AI nằm ở khả năng xử lý những gì chưa biết, trong thế giới thực. Ảnh minh họa: iStock — Các thang benchmark đo khả năng xử lý của AI trên một điều kiện đã biết, trong khi giá trị thực tế của AI nằm ở khả năng xử lý những gì chưa biết, trong thế giới thực. Ảnh minh họa: *iStock*

Khoảng cách giữa điều kiện trong benchmark và thực tế được các nhà nghiên cứu gọi là "benchmark overfitting" hay hiện tượng mô hình đạt điểm cao trong bài kiểm tra nhưng không phản ánh đúng năng lực khi triển khai ngoài đời. Vấn đề này đang ngày càng nghiêm trọng, khi nhiều nhóm phát triển tối ưu mô hình trực tiếp trên benchmark để đạt kết quả tốt với thang đo của bộ đánh giá, thay vì cải thiện hiệu năng trong các tình huống thực tế.

GLM-5 cố gắng giải quyết vấn đề "benchmark overfitting" bằng một bộ đánh giá nội bộ mô phỏng sát hơn với thực tế. Tuy nhiên, kết quả cho thấy khoảng cách hiệu năng vẫn khá lớn khi 7/10 dự án thiết kế giao diện (frondend) của GLM-5 không thể hoàn thành trọn vẹn từ đầu đến cuối theo yêu cầu.

Nhóm tác giả của bài báo thừa nhận khoảng cách hiệu năng này vẫn tồn tại ("notable ISR gap persists"), nhưng không phân tích tại sao, cũng không đi sâu vào các dạng lỗi cụ thể.

Trong một bài báo khoa học, phân tích thất bại thường là phần có giá trị nhất, vì nó cho biết giới hạn thực sự của hệ thống. Sự vắng mặt của phần này cho thấy đây không phải nghiên cứu thuần túy mà là báo cáo kỹ thuật phục vụ mục tiêu truyền thông sản phẩm – một dạng tài liệu ngày càng phổ biến trong cuộc đua AI, nơi mà "được công bố đầu tiên" quan trọng hơn "được hiểu kỹ nhất."

Điều không ai nói

Bản thảo trên arXiv của nhóm Zhipu AI và Đại học Thanh Hoa nói về tiềm năng trao quyền cho AI, nhưng gần như không có một dòng nào nói về an toàn AI. Trong một bài báo tuyên bố mô hình đang chuyển từ "thụ động" sang "tự chủ", sự im lặng này rất đáng lo.

Khi AI chỉ viết text, rủi ro an toàn chủ yếu là thông tin sai, nội dung có hại, hoặc thiên kiến. Nhưng khi AI bắt đầu tự viết và thực thi code, phạm vi rủi ro sẽ mở rộng theo cấp số nhân. Một tác nhân AI có thể tự tạo file, tự kết nối với phần mềm khác, tự sửa đổi mã nguồn. Nếu mô hình hiểu sai yêu cầu (và điều này xảy ra khá thường xuyên, như tỷ lệ thành công trên từng lần thực thi của GLM-5 chỉ là 32,7% cho thấy), hậu quả không chỉ là một đoạn văn bản sai. Nó có thể làm hỏng cả hệ thống, xóa dữ liệu, hoặc thậm chí tạo ra những lỗ hổng bảo mật mới.

GLM-5 thậm chí chưa công bố tỷ lệ bịa thông tin (hallucination) trên các tác vụ thực tế; chưa có đánh giá về việc mô hình có tuân thủ ý định người dùng không; chưa có phân tích về việc mô hình có dễ bị lừa để làm điều không mong muốn không. Đây là thiếu sót cấu trúc trong một bài báo tuyên bố mở ra kỷ nguyên "agentic."

So sánh với Anthropic, công ty đứng sau Claude, khi công bố Claude Opus 4.5, họ phát hành kèm một bộ tài liệu chi tiết về an toàn, bao gồm các đánh giá về nội dung gây hại, mức độ tuân thủ ý định người dùng và các biện pháp giảm thiểu rủi ro. GLM-5 chưa đưa ra thông tin gì tương tự như vậy.

Khi khoa học và marketing thiếu tách bạch

Ở phần cuối, bài báo kể lại câu chuyện một phiên bản thử nghiệm của GLM-5, tên gọi Pony Alpha, được Zhipu AI phát hành ẩn danh trên nền tảng OpenRouter để xem cộng đồng phản ứng thế nào. Kết quả, 25% người dùng đoán đó là Claude Sonnet 5, 20% đoán là DeepSeek, 10% đoán là Grok, và phần còn lại mới đoán đúng GLM-5.

Nhóm tác giả viết: "Sự thành công của Pony Alpha... đã dập tắt hoài nghi về việc liệu LLM Trung Quốc có thể cạnh tranh ở mức tiên phong."

Đây chính là PR thuần túy. Trong truyền thống học thuật, bài báo là nơi trình bày phương pháp, kết quả, và giới hạn. Việc biến nó thành sân khấu cho chiến dịch marketing phản ánh một xu hướng đáng lo ngại trong ngành AI - xóa mờ ranh giới giữa nghiên cứu và quảng bá.

Chúng ta đang thực sự ở đâu?

Nếu gạt sang một bên lớp marketing, GLM-5 là một thành tựu kỹ thuật đáng nể, cho thấy mô hình mã nguồn mở từ Trung Quốc đã đạt đến mức "cạnh tranh ngang hàng" với các hệ thống hàng đầu từ Mỹ. Nó khẳng định hệ sinh thái chip nội địa Trung Quốc, dù bị hạn chế, vẫn có thể hỗ trợ các mô hình ở quy mô lớn. Nó cũng đóng góp một số kỹ thuật cụ thể (TITO, async RL orchestrator, search-based SWA pattern) mà cộng đồng nghiên cứu có thể xây dựng tiếp.

Nhưng câu chuyện lớn hơn, câu chuyện mà bài báo muốn kể nhưng không hoàn toàn thuyết phục, là câu chuyện về sự chuyển đổi sang agentic engineering. Thực tế cho thấy chúng ta đang ở giai đoạn tự động hóa có giám sát (supervised automation) nhiều hơn là kỹ nghệ tự chủ (autonomous engineering). AI có thể thực thi tốt hơn, dài hơn, phức tạp hơn, nhưng vẫn trong khuôn khổ mà con người định nghĩa, vẫn cần con người kiểm tra output, và vẫn thất bại theo những cách mà con người khó dự đoán.

Có lẽ đó mới là bài học đáng giá nhất từ bài báo khoa học Team GLM-5. Không phải AI đã biết tự xây nhà, mà là chúng ta đang học cách thiết kế những "sân chơi" ngày càng phức tạp hơn để AI thử nghiệm, trong khi đối mặt với một sự thật khó chịu: sân chơi càng phức tạp, chúng ta càng khó biết liệu "người chơi" đang thực sự giỏi lên, hay chỉ đang giỏi hơn trong việc tìm lỗ hổng của luật chơi.

---

Tài liệu tham khảo:

Team GLM-5. GLM-5: from Vibe Coding to Agentic Engineering. arXiv. https://arxiv.org/pdf/2602.15763

Trở lại Khoa học - Công nghệTrở lại Khoa học - Công nghệ