Công ty Zhipu AI phá vỡ sự phụ thuộc của Trung Quốc vào chip của Mỹ với mô hình lớn đầu tiên được huấn luyện trên bảy nền tảng chip nội địa Trung Quốc, bao gồm Huawei Ascend, Moore Threads, Hygon, và một số hãng khác. Ảnh: Shutterstock.
Bản thảo bài báo kỹ thuật của nhóm về mô hình này dài 40 trang, đầy bảng biểu và công thức, nhưng ẩn sau lớp vỏ học thuật đó là một tham vọng rất rõ ràng: tạo ra AI có thể thay thế lập trình viên trong phần lớn công việc thực tế.
Tiêu đề của bản thảo bài báo tiếng Anh được đăng trên arXiv là "GLM-5: from Vibe Coding to Agentic Engineering".
Vậy vibe coding là gì? Hãy hình dung bạn thuê một người thợ xây và phải đứng kè kè bên cạnh, chỉ từng viên gạch "đặt chỗ này, đặt chỗ kia, không, lệch rồi, dịch sang trái", còn người thợ chỉ lặng lẽ làm theo từng mệnh lệnh và chờ chỉ đạo tiếp theo. Đó là vibe coding, cách phần lớn thế giới đang dùng AI để viết phần mềm vào đầu năm 2026. Ở đó, con người mô tả ý tưởng qua các câu lệnh thay vì gõ từng dòng code thủ công, và AI chấp hành theo.
Bây giờ hãy tưởng tượng một kịch bản khác. Bạn đưa thợ xây bản vẽ ngôi nhà và nói "Xây cho tôi căn nhà này." Thợ xây tự đọc bản vẽ, tự lên kế hoạch thi công, tự đặt mua vật liệu, tự phát hiện lỗi và sửa chữa. Bạn chỉ quay lại kiểm tra khi nhà xây xong. Đó chính là cách tiếp cận của agentic engineering, thứ mà đội ngũ từ Trung Quốc vừa tuyên bố đã làm được.
Đây không chỉ là chuyện của ngành phần mềm hay giới công nghệ. Nó liên quan trực tiếp đến hàng chục triệu người đang làm nghề phần mềm trên toàn thế giới, đến cách chúng ta nghĩ về lao động trí óc, và đến câu hỏi lớn hơn: khi máy móc bắt đầu tự mình giải quyết vấn đề phức tạp, ranh giới giữa công cụ và "người làm" nằm ở đâu?
Con đường từ "nghe lệnh" đến "tự hành động"
Để hiểu vì sao GLM-5 đáng chú ý, cần hiểu AI đã đi một quãng đường dài thế nào trong vài năm gần đây.
Năm 2023, các mô hình ngôn ngữ lớn (LLM) giống như những đứa trẻ thông minh nhưng chưa biết làm gì ngoài nói chuyện. Bạn hỏi, chúng trả lời. Bạn bảo viết code, chúng viết. Nhưng chúng không biết chạy code đó, không biết kiểm tra xem code có đúng không, và không biết tự sửa khi sai. Mỗi lần bạn muốn một thứ khác, bạn phải bắt đầu lại từ đầu.
Đến năm 2025, mọi thứ bắt đầu thay đổi. Các mô hình như Claude, GPT, và Gemini học được cách dùng "công cụ". Chúng có thể gọi API (gửi yêu cầu đến một hệ thống khác thông qua API để lấy dữ liệu hoặc sử dụng chức năng của hệ thống đó), tự viết và chạy mã, tự đọc kết quả, và tự quyết định bước tiếp theo. Hình dung như đứa trẻ đã biết mở tủ lạnh, lấy đồ ăn, và tự nấu mì gói thay vì chỉ biết ngồi chờ mẹ dọn cơm.
Zhang Peng, giám đốc điều hành Zhipu AI, phát biểu trước khán giả trong hội nghị ra mắt một mô hình ngôn ngữ lớn của công ty tại Bắc Kinh hồi năm 2024. Ảnh: Zhipu AI
Với GLM-5, Zhipu tuyên bố đi xa hơn một bước nữa. Thay vì chỉ "dùng công cụ" khi được yêu cầu, nó tự lập kế hoạch, tự chia nhỏ vấn đề, tự thực thi, tự kiểm tra, và tự sửa lỗi, trong nhiều giờ liền, trên những bài toán phần mềm thực tế mà trước đây cần cả đội lập trình viên.
Trong một bài test mô phỏng, GLM-5 được giao "điều hành một doanh nghiệp bán hàng tự động" trong suốt một năm giả lập, và kết thúc với số dư tài khoản 4.432 đô la, đứng đầu nhóm các mô hình mã nguồn mở.
Nghe hết sức ấn tượng. Nhưng điều chúng ta quan tâm hơn là nó thực sự làm được việc này bằng cách nào?
Học tăng cường bất đồng bộ
GLM-5 được xây dựng trên bốn đóng góp kỹ thuật chính, mỗi thứ giải quyết một nút thắt cụ thể trong quá trình huấn luyện AI.
Thứ nhất, tập trung vào điều quan trọng. Khi đọc một cuốn sách dài 200 trang, bạn không cần nhớ từng chữ. Não bạn tự lọc xem câu nào quan trọng thì ghi nhớ sâu, còn câu nào phụ thì sẽ lướt qua. GLM-5 cũng làm điều tương tự với cơ chế chú ý thưa (DeepSeek Sparse Attention - DSA). Thay vì xử lý mọi token (đơn vị nhỏ nhất của văn bản) với cùng mức độ chú ý, nó "nhìn" nội dung để quyết định token nào đáng chú ý, rồi chỉ tập trung vào đó.
Kết quả cho thấy mô hình GLM-5 có thể giảm khoảng một nửa chi phí tính toán khi xử lý văn bản dài mà vẫn giữ được những thông tin quan trọng. Nhóm nghiên cứu cho rằng khoảng 90% các truy vấn trong ma trận chú ý hiện nay là không cần thiết. Nói cách khác, thay vì xử lý toàn bộ nội dung một cách dàn trải, mô hình AI chỉ cần tập trung vào những phần thực sự quan trọng.
Nếu nhận định này chính xác, thì đây sẽ là một phát hiện sâu sắc, rằng phần lớn quá trình xử lý (hay "suy nghĩ") của AI hiện nay đang bị lãng phí, và việc cắt giảm những tính toán thừa có thể giúp AI nhanh hơn và tiết kiệm tài nguyên hơn.
Thứ hai, tập liên tục, không cần chờ nhau. Trong học tăng cường, AI học bằng cách thử nghiệm và nhận phản hồi. Giống như đứa trẻ học nấu một món ăn, chúng được ba mẹ khen hoặc chê, rồi sau đó sẽ biết đường nấu lại cho tốt hơn. Vấn đề là nếu phải đợi hoàn thành xong một lần thử rồi mới bắt đầu lần tiếp theo, việc học sẽ diễn ra rất chậm. Đặc biệt khi "món ăn" ở đây là một task phần mềm có thể mất hàng trăm bước để hoàn thành, thời gian chờ đợi vì thế trở nên rất lớn. Trong lúc đó, chip GPU để huấn luyện AI lại phải ngồi không, chờ dữ liệu mới để xử lý.
GLM-5 giải quyết bằng hạ tầng học tăng cường bất đồng bộ, tức tách rời hoàn toàn phần "thử làm" (inference) khỏi phần "học từ kết quả" (training). Nhiều phiên bản AI sẽ đồng thời thử các bài toán khác nhau, sau đó kết quả được gom lại và nạp vào bộ học mà không cần đồng bộ. Điều này giống như mở 100 gian bếp song song cho những đứa trẻ, để cho mỗi đứa nấu một món khác nhau, rồi cuối ngày tổng hợp thành bài học cho tất cả.
Nhiều phiên bản AI sẽ cùng thử các bài toán khác nhau song song, sau đó kết quả được gom lại và nạp vào bộ học mà không cần đồng bộ. Ảnh minh họa: Ampcome.
Thứ ba, đảm bảo không học sai từ thông tin quá cũ. Vấn đề của việc học bất đồng bộ là lúc AI bắt đầu thử một task, nó dùng "não" phiên bản A, nhưng khi kết quả quay về để học, "não" đã cập nhật thành phiên bản B, C, thậm chí D. Học từ trải nghiệm của phiên bản cũ có thể dẫn tới những bài học sai. Trong lý thuyết học tăng cường, vấn đề này gọi là "off-policy problem" và nó nghiêm trọng hơn nhiều so với chúng ta tưởng.
GLM-5 xử lý vấn đề này bằng một loạt kỹ thuật: đánh dấu phiên bản cho từng trải nghiệm, loại bỏ trải nghiệm quá "cũ", cắt bớt ảnh hưởng của những mẫu lệch quá xa so với chính sách hiện tại.
Họ cũng phát minh một thứ gọi là TITO Gateway (Token-in-Token-out), đảm bảo rằng chính xác chuỗi token mà AI sinh ra được giữ nguyên khi nạp vào bộ học, không bị biến đổi qua quá trình chuyển đổi text. Đây là một chi tiết tưởng chừng nhỏ nhặt nhưng các tác giả của bài báo khẳng định nó "thiết yếu" cho sự ổn định của mô hình.
Thứ tư, tối ưu cho chip Trung Quốc. Đây là đóng góp ít được chú ý nhất từ góc nhìn khoa học thuần túy, nhưng lại mang ý nghĩa địa chính trị sâu sắc. Mô hình GLM-5 được tối ưu để chạy trên bảy nền tảng chip nội địa Trung Quốc, bao gồm Huawei Ascend, Moore Threads, Hygon, và một số hãng khác. Trong bối cảnh Mỹ ngày càng siết chặt lệnh cấm xuất khẩu chip AI sang Trung Quốc, đây là tuyên bố ngầm rằng "Chúng tôi [Trung Quốc] không cần NVIDIA để chơi trò này."
Nhìn tổng thể, bốn đóng góp có một mẫu hình chung: đều là cải tiến kỹ thuật hơn là đột phá khoa học. Cơ chế chú ý thưa - DSA là ý tưởng của công ty DeepSeek, được GLM-5 áp dụng lại. Học tăng cường bất đồng bộ là một hướng nghiên cứu đã tồn tại từ lâu. Các kỹ thuật xử lý off-policy đều từng có trong tài liệu nghiên cứu trước đây.
Đóng góp thực sự của GLM-5 không nằm ở bất kỳ ý tưởng mới nào, mà ở khả năng kết hợp tất cả thành một hệ thống hoạt động được ở quy mô 744 tỷ tham số.
Kỳ tới: Điều không ai nói về AI thay thế lập trình viên của kỳ lân Trung Quốc
---
Tài liệu tham khảo:
GLM-5Team. ZhipuAI&TsinghuaUniversity. GLM-5: from Vibe Coding to Agentic Engineering. arXiv. https://arxiv.org/pdf/2602.15763