DeepSeek R1 được thiết kế để vượt trội ở các nhiệm vụ đòi hỏi khả năng suy luận như toán học và lập trình, đồng thời phải rẻ hơn so với các công cụ do các công ty công nghệ Mỹ phát triển. Là mô hình "open weight" (mở quyền truy cập vào các trọng số của mô hình), R1 cho phép bất kỳ ai cũng có thể tải xuống. Tính đến nay, nó đã được tải về 10,9 triệu lần trên nền tảng AI Hugging Face – nhiều nhất trong số các mô hình mở.
Phần tài liệu bổ sung của bài báo về R1 lần đầu tiết lộ chi phí huấn luyện R1 chỉ vào khoảng 294.000 USD. Con số này chưa tính đến 6 triệu USD mà startup DeepSeek, trụ sở tại Hàng Châu (Trung Quốc), đã chi để tạo ra mô hình ngôn ngữ lớn (LLM) nền tảng mà R1 được xây dựng dựa trên đó. Tuy nhiên, tổng chi phí này vẫn thấp hơn rất nhiều so với hàng chục triệu USD mà người ta ước tính các mô hình đối thủ phải bỏ ra.
Trên thực tế, khi ra mắt vào tháng Một năm nay, DeepSeek R1 đã khiến thị trường chứng khoán Mỹ lao dốc do các nhà đầu tư lo ngại rằng các công ty AI lớn sẽ mất lợi thế cạnh tranh, trong khi các hãng sản xuất phần cứng AI có thể bị giảm doanh số.
![]() |
DeepSeek cho biết R1 được huấn luyện chủ yếu bằng chip Nvidia H800 – loại chip đã bị Mỹ cấm xuất khẩu sang Trung Quốc từ năm 2023. Hình minh họa. Nguồn: ZUMA via Alamy
Bài báo của nhóm DeepSeek đã được đăng trên Nature vào ngày 17/9 vừa qua.
R1 được cho là mô hình ngôn ngữ lớn đầu tiên trải qua quy trình bình duyệt khoa học nghiêm ngặt. "Đây là một tiền lệ rất đáng hoan nghênh," Lewis Tunstall, kỹ sư máy học tại Hugging Face, nhận xét. "Nếu không có sự minh bạch này, rất khó để đánh giá liệu các hệ thống AI có tiềm ẩn rủi ro hay không."
Đáp lại các ý kiến phản biện, nhóm DeepSeek đã chỉnh sửa ngôn ngữ của bài báo để tránh gán cho R1 những đặc điểm của con người, bổ sung chi tiết về dữ liệu huấn luyện và các biện pháp an toàn. "Quy trình bình duyệt chắc chắn giúp kiểm chứng giá trị và tính hữu ích của mô hình," Huan Sun - nhà nghiên cứu AI tại Đại học Bang Ohio, nói.
Điểm đổi mới lớn nhất của DeepSeek là việc sử dụng một dạng tự động của phương pháp thử–sai, được gọi là học tăng cường thuần túy (pure reinforcement learning), để tạo ra R1. Quy trình này thưởng cho mô hình khi nó đưa ra đáp án đúng, thay vì dạy nó dựa trên các ví dụ suy luận do con người chọn sẵn.
Công ty cho biết chính nhờ cách này, R1 đã tự "học" được các chiến lược giống như suy luận, chẳng hạn như cách tự kiểm tra lại kết quả của mình mà không cần tuân theo các bước do con người quy định trước.
Để tăng hiệu quả, mô hình còn tự chấm điểm cho các kết quả mình tạo ra thay vì phải dùng một thuật toán riêng để làm điều đó - kỹ thuật này được gọi là "group relative policy optimization".
R1 có ảnh hưởng khá lớn trong giới nghiên cứu trí tuệ nhân tạo, theo Sun. "Hầu như mọi nghiên cứu trong năm 2025 liên quan đến việc áp dụng học tăng cường trong các mô hình ngôn ngữ lớn đều ít nhiều chịu ảnh hưởng từ R1."
Vào thời điểm R1 ra mắt, các bản tin cho biết các nhà nghiên cứu tại OpenAI, nơi tạo ra ChatGPT và dòng mô hình "o" chuyên về suy luận, tin rằng DeepSeek đã sử dụng đầu ra từ các mô hình của OpenAI để huấn luyện R1. Cách làm này có thể giúp đẩy nhanh quá trình cải thiện các khả năng của mô hình AI trong khi tiêu tốn ít tài nguyên hơn.
Tuy nhiên, trong các trao đổi với hội đồng phản biện, nhóm nghiên cứu của DeepSeek cho biết R1 không học bằng cách sao chép các ví dụ suy luận được tạo ra bởi các mô hình của OpenAI.
Tuy vậy, họ thừa nhận, giống như hầu hết các mô hình ngôn ngữ lớn khác, mô hình nền tảng của R1 được huấn luyện dựa trên dữ liệu từ Internet, nên không thể tránh khỏi việc tiếp nhận các nội dung do AI tạo ra đã có sẵn trên mạng.
Theo Tunstall, mặc dù ông không thể khẳng định 100% rằng R1 không được huấn luyện dựa trên các ví dụ của OpenAI, nhưng những nỗ lực tái lặp kết quả của R1 từ các phòng thí nghiệm khác cho thấy phương pháp huấn luyện suy luận của DeepSeek có lẽ đủ tốt để không cần sao chép dữ liệu của OpenAI. "Tôi cho rằng bằng chứng hiện có khá rõ ràng - bạn hoàn toàn có thể đạt hiệu năng rất cao chỉ bằng cách sử dụng phương pháp học tăng cường thuần túy."
Sun tự tin, đối với các nhà nghiên cứu, R1 vẫn là một mô hình có tính cạnh tranh rất cao. Trong một thử thách khoa học có tên ScienceAgentBench – yêu cầu mô hình phân tích và trực quan hóa dữ liệu – nhóm của Sun nhận thấy R1 không đứng đầu về độ chính xác, nhưng nó nằm trong số những mô hình tốt nhất về cân bằng giữa hiệu năng và chi phí.
Tunstall cho biết thêm, nhiều nhóm nghiên cứu khác đang áp dụng phương pháp của DeepSeek để nâng cao khả năng suy luận cho các mô hình ngôn ngữ lớn hiện có, cũng như mở rộng sang các lĩnh vực ngoài toán học và lập trình. "Theo cách đó, R1 đã khởi động một cuộc cách mạng," Tunstall nhận xét.
Nguồn:
https://www.nature.com/articles/s41586-025-09422-z
https://www.nature.com/articles/d41586-025-03015-6
Công Nhất
