![]() |
Nhà nghiên cứu Trung Quốc giới thiệu với đồng nghiệp quốc tế về robot phẫu thuật chỉnh hình ít xâm lấn cho khách tham quan tại Hội nghị Trí tuệ nhân tạo thế giới (WAIC) năm 2022 ở Thượng Hải, Trung Quốc. |
Vào những ngày cuối tháng 1/2025, Công ty khởi nghiệp công nghệ Trung Quốc DeepSeekđã gây bão cho thế giới công nghệ khi công bố hai mô hình ngôn ngữ lớn (LLMs) dám thách thức hiệu suất của các công cụ đang nổi trội hiện nay, vốn là sản phẩm của các gã khổng lồ công nghệ Mỹ, bất chấp việc chi phí đầu tư và nguồn lực tính toán chỉ chiếm một phần khiêm tốn so với các gã khổng lồ này.
Các mô hình này có thể tạo ra những phản hồi từng bước một, trong một quá trình tương tự cách lập luận của con người. Điều này khiến cho chúng khôn khéo hơn nhiều so với những mô hình ngôn ngữ trước về việc giải quyết các vấn đề khoa học và khiến cho chúng thêm hữu dụng trong nghiên cứu. Những thử nghiệm đầu tiên trên DeepSeek-R1, một trong số mô hình đó cho thấy hiệu quả của nó trong những nhiệm vụ nhất định của lĩnh vực hóa học, toán học và mã hóa tương đương với mô hình o1 của OpenAI – vốn khiến các nhà khoa học từng thích thú khi OpenAI công bố vào tháng 9/2024.
DeepSeek chưa công khai toàn bộ chi phí dành cho việc huấn luyện mô hình R1 nhưng đã tính phí người sử dụng vào khoảng 1/30 so với phí của mô hình o1. Công ty này cũng tạo ra những phiên bản tinh tế cỡ nhỏ của R1 để cho phép các nhà khoa học với nguồn lực tính toán hạn chế có thể sử dụng mô hình này. Do đó, một thí nghiệm tốn hơn 300 bảng [370 USD] với o1 nhưng với R1 chỉ mất quãng 10 USD", theo Mario Krenn, người đứng đầu Phòng thí nghiệm Nhà khoa học nhân tạo của Viện Khoa học ánh sáng Max Planck ở Erlangen, Đức. "Sự khác biệt quá lớn này sẽ đóng một vai trò quan trọng đối với sự sử dụng trong tương lai".
Sự đầu tư hào phóng của các công ty
Sự xuất hiện của công ty thành công như DeepSeek ở Trung Quốc là nhờ có sự đầu tư mạo hiểm cực lớn trong các công ty phát triển các mô hình ngôn ngữ lớn và nhờ việc có nhiều người là tiến sĩ trong khoa học, công nghệ, kỹ thuật hay toán học, bao gồm AI, Yunji Chen, nhà khoa học máy tính nghiên cứu về chip AI tại Viện Công nghệ tính toán (Viện Hàn lâm KH Trung Quốc), lý giải. "Nếu không có DeepSeek thì vẫn có một số mô hình ngôn ngữ lớn của Trung Quốc khác có thể làm nên điều lớn lao".
Trên thực tế, có rất nhiều công ty như vậy. Vào ngày 29/1/2025, Công ty Công nghệ Alibaba công bố một mô hình ngôn ngữ lớn tiên tiến mang tên Qwen2.5-Max mà theo công ty này vượt trội so với V3, một mô hình ngôn ngữ lớn khác mà DeepSeek ra mắt vào tháng 12/2024. Và cuối tháng 1/2025, Moonshot AI và ByteDance cung cho ra mắt các mô hình lập luận mới, Kimi 1.5 và 1.5-pro mà họ tuyên bố có thể vượt trội so với o1 ở một số thử nghiệm.
Ưu tiên của chính phủ
Để thực hiện mục tiêu đưa Trung Quốc trở thành người dẫn đầu thế giới về Ai vào năm 2030, việc phát triển một nguồn nhân lực AI đã trở thành một ưu tiên ở Trung Quốc. Vào năm 2022, Bộ Giáo dục Trung Quốc đã thông qua chương trình đào tạo bậc đại học về AI ở 440 trường đại học.
DeepSeek có lẽ được hưởng lợi từ việc đầu tư vào giáo dục và phát triển tài năng AI của Chính phủ Trung Quốc, với vô số học bổng dành cho học giả, tài trợ cho các dự án nghiên cứu và các khoản đầu tư vào hợp tác giữa ngành công nghiệp và giới hàn lâm về AI. Theo Marina Zhang, nhà nghiên cứu chính sách khoa học ở ĐH Công nghệ Sydney ở Australia, cho biết, các sáng kiến có chính phủ hỗ trợ như Phòng thí nghiệm Kỹ thuật Quốc gia về Công nghệ và ứng dụng Deep Learningdo công ty Baidu dẫn dắt đã huấn luyện hàng ngàn chuyên gia AI.
Nhà sáng lập Công ty Liang Wenfeng từng nói trên truyền thông Trung Quốc rằng họ đã tuyển dụng cả sinh viên và nghiên cứu sinh từ nhiều trường đại học hàng đầu quốc gia này. Một số người đứng đầu các nhóm nghiên cứu ở công ty này dưới 35 tuổi và trong quá trình trưởng thành đã chứng kiến sự trỗi dậy của Trung Quốc như một siêu cường công nghệ, Zhang nói. "Họ được một động lực tự cường trong đổi mới sáng tạo thúc đẩy".
Wenfeng, 39 tuổi, cũng là một doanh nhân trẻ và tốt nghiệp ngành khoa học máy tính ở ĐH Triết Giang, một cơ sở nghiên cứu hàng đầu ở Hàng Châu. Anh cũng đồng thành lập Quỹ tài trợ High-Flyer khoảng một thập kỷ trước và thành lập DeepSeek vào năm 2023.
Hiệu quả trong những điều kiện hạn chế
Có lẽ phần ấn tượng nhất trong thành công của DeepSeek là sự phát triển DeepSeek-R1 và Janus-Pro-7B bất chấp lệnh kiểm soát xuất khẩu của Chính phủ Mỹ nhằm ngăn sự tiếp cận của Trung Quốc với các chin tính toán AI tiên tiến, được áp dụng kể từ năm 2022.
Zhang nói, DeepSeek đã chọn một cách tiếp cận kiểu Trung Quốc trong đổi mới sáng tạo, nhấn mạnh vào hiệu quả trong điều kiện hạn chế. Tuy nhiên, họ lại không tiết lộ các chi tiết cụ thể về việc sử dụng phần cứng như thế nào, cô cho biết thêm.
DeepSeek từng cho biết đã sử dụng khoảng 2.000 chip H800 do Nvidia sản xuất để huấn luyện DeepSeek-V3, một mô hình ra mắt vào tháng 12/2025 được tuyên bố là vượt trội so với LLM GPT-4o của OpenAI, vốn ra mắt vào tháng 5/2024. Trong khi đó, Llama 3.1 405B, một mô hình tinh vi của Meta được ra mắt vào tháng 7/2024 ở Menlo Park, California, cần đến hơn 16.000 chip H100 tiên tiến của Nvidia. Trong một bài viết trên nền tảng xã hội WeChat vào năm 2022, High-Flyer cho biết, DeepSeek chỉ có thể tiếp cận được 10.000 chip A100 cũ hơn của Nvidia. Việc có những con chip như vậy khiến việc xây dựng mô hình AI của DeepSeek trở nên rẻ hơn. "Vấn đề mà chúng tôi phải đối mặt không phải là tiền mà chính là lệnh cấm các con chip công nghệ cao", Wenfeng nói trên báo chí Trung Quốc vào tháng 7/2024.
Thành công cả DeepSeek có thể bật đèn xanh cho những quốc gia có tham vọng về AI nhưng thiếu nguồn lực tài chính và phần cứng để huấn luyện cho các mô hình ngôn ngữ lớn vẫn sử dụng cách tiếp cận theo kiểu Thung lũng Silicon, theo nhận xét của Yanbo Wang, nhà nghiên cứu về khoa học chính trị ở ĐH Hong Kong. "Điều này có thể dẫn đến việc tạo ra cả một đội quân mô hình mới".
Nguồn: Nature
Bài đăng KHPT số 1330 (số 6/2025)
Anh Vũ
