Bí mật của mô hình AI DeepSeek trong bài báo bước ngoặt

Nghiên cứu đầu tiên này đã chứng tỏ cách làm của một công ty start-up Trung Quốc trong việc tạo ra một mô hình ngôn ngữ lớn làm rung chuyển thị trường với chi phí 300.000 USD.

DeepSeek nói mô hình R1 của mình không học hỏi hay sao chép ví dụ tạo ra từ các mô hình ngôn ngữ lớn khác. Ảnh: David Talukdar/ZUMA via Alamy

Thành công của mô hình AI mang tên R1 đầy quyền lực của DeepSeek – khiến cho thị trường chứng khoán Mỹ tụt dốc khi ra mắt vào tháng giêng – không phụ thuộc vào việc huấn luyện dựa trên kết quả của các đối thủ, các nhà nghiên cứu tại công ty Trung Quốc này nói. Thông cáo báo chí đã được phát ra cùng tài liệu đi kèm với một bài báo đã được bình duyệt về mô hình R1, mới được xuất bản trên Nature.

R1 được thiết kế để vượt trội trong các tác vụ ‘suy luận’ như toán học và viết mã, và đó là một công cụ đối thủ rẻ hơn nhiều so với những công cụ được các công ty công nghệ Mỹ phát triển. Vì là mô hình ‘trọng số mở’, nó sẵn sàng cho mọi người tải xuống, và cho đến nay, đó là mô hình phổ biến nhất trong nền tảng của cộng đồng AI Hugging Face với 10,9 triệu lần được tải.

Bài báo đã cập nhật so với bài báo ở dạng tiền ấn phẩm, xuất hiện vào tháng giêng, trong đó miêu tả cách DeepSeek đưa thêm một mô hình ngôn ngữ lớn tiêu chuẩn (LLM) để giải quyết các nhiệm vụ lập luận. Thông tin mà nó cung cấp cho thấy lần đầu tiên, chi phí huấn luyện mô hình R1 chỉ ở mức 294.000 USD. Chi phí này cộng thêm 6 triệu USD hoặc hơn nữa mà công ty ở Hàng Châu này đầu tư để tạo ra mô hình ngôn ngữ lớn làm nền cho R1, tuy nhiên tổng chi phí vẫn còn ít hơn so với hàng chục triệu USD mà người ta nghĩ là cần để xây dựng các mô hình đối thủ. DeepSeek cho biết, R1 được huấn luyện chủ yếu dựa trên các con chip H800 của Nvidia, vốn từ năm 2023 đã bị cấm xuất khấu sang Trung Quốc.

Bình duyệt nghiêm ngặt

R1 được cho là mô hình ngôn ngữ lớn đầu tiên trải qua quá trình bình duyệt. “Đó là một quyết định được chào đón,” theo Lewis Tunstall, một kỹ sư máy học ở Hugging Face đã tham gia bình duyệt bài báo trên Nature. “Nếu chúng ta không có chuẩn mực chia sẻ công khaiquá trình bình duyệt này thì rất khó để đánh giá là liệu các hệ thống này có dẫn đến rủi ro hay không.”

Phản hồi với các đánh giá bình duyệt, nhóm DeepSeek đã giảm nhân cách hóa trong các miêu tả của mình và tăng thêm phân loại các chi tiết kỹ thuật, bao gồm các loại dữ liệu mà mô hình được huấn luyện và sự an toàn của nó. “Trải qua một quá trình bình duyệt nghiêm ngặt tất nhiên giúp cho mô hình thêm giá trị và hữu dụng”, theo Huan Sun, một nhà nghiên cứu AI tại ĐH bang Ohio ở Columbus. “Các công ty khác nên làm như vậy”.

Đổi mới sáng tạo chính của DeepSeek là việc sử dụng một cách tiếp cận ‘thử và sai’ là học tăng cường thuần túy để tạo ra R1. Quá trình này tưởng thưởng cho mô hình để chạm đến câu hỏi đúng hơn là dạy nó đi theo sau những ví dụ suy luận mà con người lựa chọn. DeepSeek cho biết, đây là cách mô hình học hỏi các chiến lược giống như suy luận của mình, như cách xác nhận công việc mà không cần đến chiến thuật do con người quy định. Để thúc đẩy hiệu suất, mô hình này nhận được điểm thưởng bằng sử dụng ước tính hơn là sử dụng một thuật toán khác, một kỹ thuật gọi là tối ưu chính sách tương quan nhóm.

Mô hình này đã tạo ra “ảnh hưởng thực sự’ trong các nhà nghiên cứu AI, Sun nói. “hầu hết các nghiên cứu trong năm 2025 đều có thuật toán học tăng cường trong các mô hình ngôn ngữ lớn, có thể được truyền cảm hứng từ R1”.

Huấn luyện kỹ thuật

Truyền thông trong tháng giêng cho biết, các nhà nghiên cứu OpenAI nghĩ DeepSeek đã sử dụng kết quả từ các mô hình OpenAI để huấn luyện R1, một phương pháp có thể làm gia tốc năng lực của một mô hình trong khi sử dụng nguồn tài nguyên nhỏ hơn.

DeepSeek không công khai dữ liệu huấn luyện mô hình như một phần của bài báo. Nhưng trong trao đổi với những nhà bình duyệt, họ tuyên bố R1 không học hỏi bằng cách sao chép các ví dụ suy luận được tạo ra từ mô hình của OpenAI. Tuy nhiên họ biết rằng giống như các mô hình ngôn ngữ lớn khác, mô hình nền tảng của R1 đã được huấn luyện trên web, vì vậy sẽ phải sử dụng bất kỳ nội dung do AI tạo ra trên Internet.

Sự bác bỏ này ‘có sức thuyết phục như những gì chúng ta thấy trong bất cứ bài báo nào được xuất bản’, Sun nói. Tunstall cho biết thêm là dẫu ông không chắc 100% là R1 không được huấn luyện dựa trên ví dụ của OpenAI, việc lặp lại nỗ lực ở các phòng thí nghiệm khác cho thấy công thức của DeepSeek cho suy luận có thể là đủ tốt mà không cần điều này. “Tôi nghĩ bằng chứng này cho thấy, bạn có thể có được hiệu suất cao chỉ từ học tăng cường thuần túy”, ông nói.

Với các nhà nghiên cứu, R1 vẫn rất cạnh tranh, Sun nói. Trong một cuộc thi hoàn tất  các nhiệm vụ khoa học như phân tích và trực quan hóa dữ liệu như ScienceAgentBench, Sun và cộng sự phát hiện ra dẫu R1 không phải là đứng đầu về độ chính xác nhưng là một trong những mô hình tốt nhất theo nghĩa cân bằng năng lực và chi phí.

Các nhà nghiên cứu khác đang cố gắng áp dụng phương pháp đã tạo ra R1 để cải thiện các năng lực giống như suy luận của các mô hình ngôn ngữ lớn hiện có như mở rộng chúng cho các miền nằm ngoài toán học và viết mã, Tunstall nói và cho biết thêm, theo cách này, R1 đã “khởi động một cuộc cách mạng”.

Thanh Hương dịch từ Nature

Nguồn: doi: https://doi.org/10.1038/d41586-025-03015-6

Tác giả

(Visited 44 times, 44 visits today)