AI DEEPSEEK làm thế giới kinh ngạc, vì sao?

Chính sách của chính phủ, hệ thống đào tạo cung cấp nguồn sinh viên chuyên ngành AI và nguồn đầu tư hào phóng đóng vai trò quan trọng trong đột phá của Deepseek.

Mô hình của DeepSeek thách thức các mô hình AI đã ra mắt trước đó.

Cơn địa chấn DeepSeek

Công ty khởi nghiệp DeepSeek của Trung Quốc vào ngày 20/1 đã gây ra một cơn địa chấn không chỉ trong thế giới công nghệ mà cả thế giới tài chính và truyền thông thế giới. Đó là việc DeepSeek cho ra mắt DeepSeek-R1, một mô hình AI ‘có thể suy luận’ từng phần với nguồn mã mở có thể giải quyết một số vấn đề khoa học ở mức tiêu chuẩn tương tự mức tiên tiến nhất của Công ty OpenAI (Mỹ) ra mắt vào cuối năm ngoái – nhưng với chi phí cũng như năng lực máy tính thấp hơn rất nhiều. DeepSeek tuyên bố chỉ tốn 6 triệu USD và 2.048 GPU để đào tạo mô hình AI của họ, một khoản nhỏ hơn đáng kể so với hàng trăm triệu đô la, thậm chí cả tỷ đô la mà OpenAI đã chi phí cho mô hình có chức năng tương tự. Vài tuần sau, DeepSeek tung ra một mô hình khác, được gọi là Janus-Pro-7B. Nó có thể tạo ra hình ảnh từ văn bản, giống như DALL-E 3 của OpenAI và Stable Diffusion của Công ty Stability AI ở London. 

Cơn địa chấn DeepSeek đã khiến cho hàng loạt công ty công nghệ cao ở Mỹ chao đảo với giá cổ phiếu rớt thảm hại. Riêng công ty chip AI số một thế giới Nvdia bị ‘bốc hơi’ 629 tỷ USD trong một ngày 21/1/2025 và thị trường chứng khoán công nghệ Nasdad bị bốc hơi hơn 1,2 nghìn tỷ USD trong ngày hôm đó. Trong khi đó, theo tờ Bloomberg (16/2/2025), thị trường chứng khoán Trung Quốc thu hút thêm 1,3 nghìn tỷ USD từ sự kiện này. 


Có lẽ yếu tố gây ấn tượng nhất trong thành công của DeepSeek là việc họ đã phát triển DeepSeek-R1 và Janus-Pro-7B trong bối cảnh các biện pháp kiểm soát xuất khẩu của Chính phủ Mỹ đã ngăn chặn Trung Quốc tiếp cận các chip điện toán AI tiên tiến kể từ năm 2022.

Theo những người nghiên cứu AI của Trung Quốc thì việc một công ty như DeepSeek xuất hiện ở Trung Quốc là điều gần như chắc chắn sẽ xảy ra. Trong những năm qua các quĩ đầu tư mạo hiểm ở Trung Quốc đã đổ những khoản tiền đầu tư lớn vào các công ty phát triển LLM (mô hình ngôn ngữ lớn). Hơn thế, đội ngũ nghiên cứu và làm việc trong lĩnh vực AI của Trung Quốc hết sức lớn mạnh với rất nhiều người có trình độ sau đại học, kể cả trình độ tiến sĩ, đang nghiên cứu AI. Tạp chí uy tín Nature (13/2/2025) dẫn lại ý kiến của một nhà khoa học AI ở Trung Quốc, cho rằng “Nếu không có DeepSeek thì sẽ có một số LLM Trung Quốc khác có thể làm những điều tuyệt vời như thế.”

Trong thực tế, đúng là đã có các công ty như thế. Vào ngày 29/1, gã khổng lồ công nghệ Alibaba đã công bố LLM tiên tiến nhất cho đến nay, Qwen2.5-Max. Công ty Alibaba cho biết mô hình AI mới của họ hoạt động tốt hơn V3 của DeepSeek, một LLM khác được công ty công bố vào tháng 12/2024. Cũng trong  tháng 1/2025, các Công ty Moonshot AI và ByteDance cũng đã công bố các mô hình AI mới có khả năng suy luận, Kimi 1.5 và 1.5-pro, là các mô hình mà họ tuyên bố có thể vượt trội hơn mẫu o1 của OpenAI trong các kiểm tra tiêu chuẩn.

Theo các nhà khoa học, có lẽ yếu tố gây ấn tượng nhất trong thành công của DeepSeek là việc họ đã phát triển DeepSeek-R1 và Janus-Pro-7B trong bối cảnh các biện pháp kiểm soát xuất khẩu của Chính phủ Mỹ đã ngăn chặn Trung Quốc tiếp cận các chip điện toán AI tiên tiến kể từ năm 2022.

Liang Wenfeng, nhà sáng lập Công ty DeepSeek (phải) gặp Thủ tướng Chính phủ Trung Quốc Lý Cường hôm 20/1/2025 (ảnh South China Morning Post).

Theo công bố của DeepSeek, công ty đã sử dụng khoảng 2.000 chip H800 do nhà sản xuất chip Nvidia của Mỹ để huấn luyện DeepSeek-V3, một mô hình AI ra mắt tháng 12/2024 và đã vượt trội mô hình GPT-4o của OpenAI, ra mắt vào tháng 5/2024 trong các kiểm tra tiêu chuẩn. Trong khi đó, mô hình Llama 3.1 405B, ra mắt vào tháng 7/2024 của Meta (công ty mẹ của FaceBook) dựa trên hơn 16.000 chip H100 Nvidia tiên tiến hơn. Trong một bài đăng năm 2022 trên mạng xã hội WeChat, quĩ tài chính High-Flyer đầu tư cho DeepSeek nói rằng họ có 10.000 chip A100 cũ hơn của Nvidia mà DeepSeek có thể có quyền truy cập. Việc DeepSeek sử dụng chip kém mạnh hơn có thể khiến cho việc xây dựng các mô hình của nó rẻ hơn. “Vấn đề của chúng tôi không phải là thiếu tiền mà là lệnh cấm tiếp cận với chip cao cấp”, nhà sáng lập của DeepSeek, anh Wenfeng nói với báo chí truyền thông Trung Quốc vào tháng 7/2024.

Tuy nhiên, công ty tình báo thị trường uy tín SemiAnalysis ngày 31/1/2025 báo cáo rằng công ty đứng sau DeepSeek, quĩ tài chính High-Flyer đã phải chịu chi phí 1,6 tỷ USD cho phần cứng với hơn 50.000 chip GPU Nvidia Hopper. Phát hiện này đã làm giảm đi uy tín của quan điểm cho rằng DeepSeek đã phát minh ra các phương pháp mới cho việc huấn luyện mô hình AI có khả năng suy luận với mức đầu tư thấp hơn đáng kể so với các công ty dẫn đầu ngành AI ở Mỹ. 


Tiến bộ của DeepSeek là ở chỗ họ đã sử dụng phương pháp máy học (machine learning) để đưa ‘khả năng suy luận’ vào mô hình ngôn ngữ AI có thể tái tạo lại được bằng thực nghiệm.

Báo cáo của SemiAnalysis khẳng định rằng DeepSeek đã vận hành một cơ sở hạ tầng điện toán rộng khắp với khoảng 50.000 GPU Hopper. Con số này bao gồm 10.000 chip H800 và 10.000 chip H100. Ngoài ra DeepSeek còn mua thêm nhiều đơn vị phần cứng H20. Các hệ thống này được phân phối trên nhiều địa điểm và phục vụ các mục đích như đào tạo, nghiên cứu và lập mô hình AI. Theo SemiAnalysis, tổng vốn đầu tư vào máy chủ là khoảng 1,6 tỷ USD, với chi phí vận hành ước tính khoảng 944 triệu USD. 

Ngoài ra, cũng theo Nature, hồi tháng 1/2025 các phương tiện truyền thông đưa tin rằng OpenAI đang xem xét về các cáo buộc cho rằng DeepSeek đã sử dụng kết quả đầu ra từ các mô hình OpenAI để đào tạo mô hình của họ. DeepSeek vẫn chưa phản hồi về các cáo buộc đó. 

Theo nhiều nhà nghiên cứu về công nghệ AI, ngay cả nếu các cáo buộc nói trên là đúng, thì điều đó cũng sẽ “không làm giảm đi” thành tích của DeepSeek trong việc tạo ra R1. Theo họ, tiến bộ của DeepSeek là ở chỗ họ đã sử dụng phương pháp máy học (machine learning) để đưa ‘khả năng suy luận’ vào mô hình ngôn ngữ AI được tái tạo lại được bằng thực nghiệm. 


Điểm khác biệt chính của DeepSeek là khả năng vận hành các trung tâm dữ liệu của riêng mình, không giống như hầu hết các công ty khởi nghiệp AI khác phụ thuộc vào các nhà cung cấp ‘đám mây điện tử’ bên ngoài.

Nếu khả năng của DeepSeek-R1 gây ngạc nhiên cho nhiều người quan sát nước ngoài, các nhà nghiên cứu AI Trung Quốc cho rằng sự thành công của công ty khởi nghiệp DeepSeek đã được chờ đợi và phù hợp với tham vọng trở thành quốc gia dẫn đầu thế giới về trí tuệ nhân tạo (AI) của Chính phủ Trung Quốc.  

Ưu tiên của chính phủ

Theo Nature, năm 2017, Chính phủ Trung Quốc đã công bố mục tiêu đưa đất nước trở thành dẫn đầu thế giới về AI vào năm 2030. Chính phủ đã giao nhiệm vụ cho ngành công nghệ của họ phải hoàn thành những đột phá lớn về “các công nghệ và ứng dụng AI đạt trình độ dẫn đầu thế giới” vào năm 2025. 

Phát triển hệ thống đào tạo nguồn ‘tài năng AI’ đã trở thành một chính sách ưu tiên quốc gia nhằm thúc đẩy phát triển hệ sinh thái cho công nghệ AI, giúp các công ty AI thu hút được tài trợ và nhân tài. Đến năm 2022, Bộ Giáo dục Trung Quốc đã phê duyệt 440 trường đại học đào tạo sinh viên đại học chuyên về AI, theo báo cáo từ Trung tâm An ninh và Công nghệ mới nổi (CSET) tại Đại học Georgetown ở Washington DC. Cũng vào năm 2022, Trung Quốc đã cung cấp gần một nửa số các nhà nghiên cứu AI hàng đầu thế giới, trong khi Mỹ chỉ chiếm 18%, theo tổ chức tư vấn MacroPolo ở Chicago (Illinois, Mỹ). 

Các công ty AI của Trung Quốc đã được hưởng lợi từ các chương trình của chính phủ đầu tư vào giáo dục và phát triển tài năng AI, bao gồm cấp nhiều học bổng, tài trợ nghiên cứu và quan hệ đối tác giữa các học viện và ngành công nghiệp AI. Chẳng hạn như sáng kiến National Engineering Laboratory for Deep Learning Technology and Application do Công ty Baidu điều phối và được nhà nước hậu thuẫn, đã đào tạo hàng nghìn chuyên gia AI.  

Chính vì lẽ đó mà một điều hoàn toàn bất ngờ đối với giới quan sát nước ngoài là một công ty như DeepSeek của Trung Quốc chỉ sử dụng nguồn nhân tài AI của Trung Quốc đại lục, không ‘săn trộm’ từ Đài Loan hay Mỹ. Theo SemiAnalysis, các nhân viên của DeepSeek được tuyển dụng dựa vào các kỹ năng và khả năng giải quyết vấn đề hơn là bằng cấp chính thức. Nỗ lực tuyển dụng nhắm vào các trường như Đại học Bắc Kinh và Đại học Chiết Giang,với mức lương cạnh tranh cao. Theo điều tra, một số nhà nghiên cứu AI tại DeepSeek kiếm được hơn 1,3 triệu USD, vượt mức lương của các công ty AI hàng đầu khác của Trung Quốc như Moonshot.

Liang Wenfeng, nhà sáng lập Công ty DeepSeek, nói với truyền thông Trung Quốc rằng công ty đã tuyển dụng các sinh viên tốt nghiệp và nghiên cứu sinh từ các trường đại học hàng đầu Trung Quốc. Một số thành viên trong ban lãnh đạo của công ty trẻ hơn 35 tuổi. Thế hệ trẻ các nhà khoa học này đã trưởng thành và   chứng kiến ​​sự trỗi dậy của một nước Trung Quốc như một siêu cường công nghệ. “Họ được thúc đẩy mạnh mẽ bởi động lực tự lực vươn lên của đất nước về đổi mới sáng tạo.” Bản thân Wenfeng, 39 tuổi, là một doanh nhân trẻ và tốt nghiệp ngành khoa học máy tính tại Đại học Chiết Giang (Hàng Châu). Anh là người đồng sáng lập quỹ đầu tư High-Flyer gần một thập kỷ trước và mới thành lập DeepSeek vào năm 2023.

“Hiệu quả trong điều kiện hạn chế”

DeepSeek sử dụng nhiều phương pháp khác nhau để nâng cao hiệu quả của các mô hình AI của họ. Chẳng hạn như nó sử dụng thiết kế ‘mixture-of-experts’(MoE), một phương pháp học máy (machine learning) đào tạo các mô hình nhanh hơn các kỹ thuật thông thường và với ít tham số hơn. Theo nhiều nhà khoa học máy tính thì điều này cho phép công ty huấn luyện các mô hình có ít chip AI hơn. Nó cũng sử dụng phiên bản cải tiến của một kỹ thuật khác cho phép mô hình lưu trữ nhiều dữ liệu hơn với ít bộ nhớ hơn. 

Theo New York Times (12/2/2025) các công ty AI thường tạo ra một mạng lưới ‘tế bào thần kinh nhân tạo’ duy nhất có khả năng học tất cả các mẫu trong tất cả dữ liệu trên internet. Điều này rất tốn kém vì phải di chuyển lượng dữ liệu khổng lồ giữa các chip GPU. Nếu một con chip đang học cách viết một bài thơ và một con chip khác đang học cách viết một chương trình máy tính, chúng vẫn cần nói chuyện với nhau, đề phòng trường hợp có sự trùng lặp giữa thơ ca và lập trình. Với phương pháp ‘mixture-of-experts’ (pha trộn của nhiều chuyên gia), các nhà nghiên cứu đã cố gắng chia hệ thống thành nhiều mạng lưới: một dành cho thơ ca, một dành cho lập trình máy tính, một dành cho sinh học, một dành cho vật lý, v.v. Có thể có 100 hệ thống các “chuyên gia” nhỏ hơn như thế này. Mỗi chuyên gia có thể tập trung vào lĩnh vực cụ thể của mình. Nhiều công ty đã gặp khó khăn nhưng DeepSeek đã làm tốt phương pháp này. Bí quyết của nó là ghép các hệ thống “chuyên gia” nhỏ hơn đó với một hệ thống “tổng quát”. Các ‘chuyên gia’ vẫn cần trao đổi một số thông tin với nhau và hệ thống chung ‘tổng quát’ giúp điều phối các tương tác giữa các ‘chuyên gia.’

Theo SemiAnalysis, điểm khác biệt chính của DeepSeek là khả năng vận hành các trung tâm dữ liệu của riêng mình, không giống như hầu hết các công ty khởi nghiệp AI khác phụ thuộc vào các nhà cung cấp ‘đám mây điện tử’ bên ngoài. Sự độc lập này cho phép họ kiểm soát hoàn toàn các thử nghiệm và tối ưu hóa mô hình AI. Mặt khác, trong quá trình huấn luyện, các mô hình AI cần phải tiếp cận một nguồn dữ liệu khổng lồ của các đám mây điện tử ở các trung tâm dữ liệu của các công ty lớn. Tuy nhiên, các mô hình AI của các công ty nhỏ, nhất là start-up, không đủ tiền để có riêng các trung tâm dữ liệu như thế, vì vậy họ buộc phải dùng ‘nhờ’. Cách làm này có một nhược điểm là việc mỗi lần truy cập một dữ liệu khổng lồ sẽ gây ra tình trạng tắc nghẽn như tắc nghẽn giao thông đô thị. Giải pháp của DeepSeek dựa trên khả năng tự vận hành các trung tâm dữ liệu, cho phép họ lặp lại các đợt truy cập một cách nhanh chóng mà không gặp tắc nghẽn ở bên ngoài, qua đó giúp DeepSeek đạt hiệu quả cao so với những công ty truyền thống AI. 

Tuy vậy, SemiAnalysis cho rằng, tuyên bố của DeepSeek huấn luyện mô hình AI của họ chỉ với 6 triệu USD phần lớn là cường điệu. Con số này chỉ đề cập đến một phần trong tổng chi phí huấn luyện – cụ thể là thời gian GPU cần thiết cho quá trình huấn luyện. Nó không tính đến chi phí nghiên cứu, cải tiến mô hình, xử lý dữ liệu hoặc chi phí cơ sở hạ tầng tổng thể. Trên thực tế, DeepSeek đã chi hơn 500 triệu USD cho việc phát triển AI kể từ khi thành lập. Tuy vậy, SemiAnalysis tin rằng, không giống như các công ty lớn hay có bệnh quan liêu hành chính, cấu trúc tinh gọn của DeepSeek cho phép công ty thúc đẩy đổi mới AI. 

Cho dù chi phí của DeepSeek có thể cao hơn trên thực tế như phân tích nói trên của SemiAnalysis, thành tựu của DeepSeek có thể được coi là mẫu mực cho các quốc gia có tham vọng về AI nhưng thiếu nguồn tài chính dồi dào như các công ty của Mỹ. Điều này lại càng có ý nghĩa hơn khi đặt trong bối cảnh Chính phủ Mỹ đang tìm cách ngăn chặn khả năng tiếp cận các chip tiên tiến và các phần cứng khác khiến cho nhiều nước theo đuổi các phương pháp phát triển các mô hình AI theo tiêu chuẩn của  các công ty AI của Mỹ là gần như bất khả thi. Bằng cách xây dựng hệ sinh thái công nghệ AI, từ chính sách của nhà nước phát triển hệ thống đào tạo nhân tài cũng như phát huy các nguồn tài chính trong nước, nhờ đó mà DeepSeek và các công ty AI khác của Trung Quốc đã tạo ra các đột phá quan trọng trong một lĩnh vực được coi là quan trọng hàng đầu trong cuộc cách mạng AI. 

Và giờ thì câu hỏi quan trọng nhất hiện nay đang đặt ra cho các nhà quan sát quốc tế cũng như cho các nhà  hoạch định chính sách của Trung Quốc là sau cơn địa chấn DeepSeek cũng như các thành công của các công ty AI khác của Trung Quốc, liệu các đổi mới sáng tạo của họ sẽ đi được bao xa nữa nếu họ vẫn không làm chủ được nghành công nghệ chip tiên tiến sánh ngang cùng các cường quốc khác. □  

New York, 16/2/2025

* TS. Nguyễn Trung Dân là nghiên cứu viên cao cấp tại Trung tâm Nghiên cứu và Phát triển Corning, New York, Mỹ.

—————-

Tham khảo

https://www.bnnbloomberg.ca/business/international/2025/02/16/deepseek-drives-13-trillion-china-stock-rally-as-funds-pile-in
https://www.nature.com/articles/d41586-025-00259-0
https://www.nytimes.com/2025/02/12/technology/deepseek-ai-chip-costs.html

Bài đăng Tia Sáng số 4/2025

Tác giả

(Visited 202 times, 41 visits today)