Bí mật của mô hình AI DeepSeek trong bài báo bước ngoặt

Nghiên cứu đầu tiên này chứng tỏ cách một công ty start-up Trung Quốc tạo ra mô mô hình ngô ngữ lớn làm rung chuyển thị trường với chi phí 300.000 USD.

DeepSeek nói mô hình R1 của mình không học hỏi hay sao chép ví dụ tạo ra từ các mô hình ngôn ngữ lớn khác. Ảnh: David Talukdar/ZUMA via Alamy

Thành công của mô hình AI mang tên R1 đầy quyền lực của DeepSeek – khiến cho thị trường chứng khoán Mỹ tụt dốc khi ra mắt vào tháng giêng – không phụ thuộc vào việc huấn luyện dựa trên kết quả của các đối thủ, các nhà nghiên cứu tại công ty Trung Quốc này nói. Thông cáo báo chí đã được phát ra cùng tài liệu đi kèm với một bài báo đã được bình duyệt về mô hình R1, mới được xuất bản trên Nature1.

R1 được thiết kế để vượt trội trong các tác vụ ‘suy luận’ như toán học và viết mã, và đó là một công cụ đối thủ rẻ hơn nhiều so với những công cụ được các công ty công nghệ Mỹ phát triển. Vì là mô hình ‘trọng số mở’, nó sẵn sàng cho mọi người tải xuống, và cho đến nay, đó là mô hình phổ biến nhất trong nền tảng của cộng đồng AI Hugging Face với 10,9 triệu lần được tải.

Bài báo đã cập nhật so với một bài ở dạng tiền ấn phẩm vào tháng giêng, trong đó miêu tả cách DeepSeek được tăng thêm một mô hình ngôn ngữ lớn tiêu chuẩn (LLM) để giải quyết các tác vụ lập luận. Vật liệu mà nó cung cấp cho thấy lần đầu tiên, chi phí huấn luyện mô hình R1 chỉ là294.000 USD. Chi phí này cộng thêm 6 triệu USD hoặc hơn nữa mà công ty ở Hàng Châu này chi phí để tạo ra mô hình ngôn ngữ lớn mà R1 được xây dựng nên, nhưng tổng chi phí vẫn còn ít hơn so với hàng chục triệu USD mà người ta nghĩ là cần để xây dựng các mô hình đối thủ. DeepSeek nói R1 được huấn luyện chủ yếu dựa trên các con chip H800 của Nvidia, vốn từ năm 2023 đã bị cấm xuất khấu sang Trung Quốc.

Bình duyệt nghiêm ngặt

R1 được cho là mô hình ngôn ngữ lớn đầu tiên trải qua quá trình bình duyệt. “Đó là một quyết định được chào đón,” theo Lewis Tunstall, một kỹ sư máy học ở Hugging Face đã tham gia bình duyệt bài báo trên Nature. “Nếu chúng ta không có chuẩn mực chia sẻ quá trình bình duyệt này một cách công khai thì rất khó để đánh giá liệu các hệ thống này có dẫn đến rủi ro hay không.”

Phản hồi vơi các đánh giá bình duyệt, nhóm DeepSeek đã giảm nhân cách hóa trong các miêu tả của mình và tăng thêm sự phân loại các chi tiết kỹ thuật, bao gồm các loại dữ liệu  mà mô hình được huấn luyện và sự an toàn của nó. “Trải qua một quá trình bình duyệt nghiêm ngặt tất nhiên giúp cho mô hình thêm giá trị và hữu dụng”, theo Huan Sun, một nhà nghiên cứu AI tại ĐH bang Ohio ở Columbus. “Các công ty khác nên làm như vậy”.

Đổi mới sáng tạo chính của DeepSeek là sử dụng một cách tiếp cận thử và sai tự động là học tăng cường thuần túy để tạo ra R1. Quá trình này tưởng thưởng cho mô hình để chạm đến câu hỏi đúng hơn là dạy nó theo sau những ví dụ suy luận mà con người lựa chọn. Công ty này cho biết điều này là cách mô hình học hỏi các chiến lược giống như suy luận của mình, như cách xác nhận công việc mà không cần đến chiến thuật do con người quy định. Để thúc đẩy hiệu suất, mô hình này nhận được điểm cho nỗ lực của mình bằng sử dụng ước tính hơn là sử dụng một thuật toán khác, một kỹ thuật gọi là tối ưu chính sách tương quan nhóm.

Mô hình này đã tạo ra ‘ảnh hưởng thực sự’ trong các nhà nghiên cứu AI, Sun nói. “hầu hết các nghiên cứu trong năm 2025 đều có thuật toán học tăng cường trong các mô hình ngôn ngữ lớn, có thể được truyền cảm hứng từ R1”.

Huấn luyện kỹ thuật

Truyền thông trong tháng giêng cho biết các nhà nghiên cứu OpenAI nghĩ DeepSeek đã sử dụng kết quả từ các mô hình OpenAI để huấn luyện R1, một phương pháp có thể làm gia tốc năng lực của một mô hình trong khi sử dụng nguồn tài nguyên nhỏ hơn.

DeepSeek không công khai dữ liệu huấn luyện mô hình như một phần của bài baos. Nhưng trong trao đổi với những nhà bình duyệt, họ tuyên bố R1 không học hỏi bằng cách sao chép các vi dụ suy luận được tạo ra từ mô hình của OpenAI. Tuy nhiên họ biết rằng giống như  các mô hình ngôn ngữ lớn khác, mô hình nền tảng của R1 đã được huấn luyện trên web, vì vậy sẽ phải sử dụng bất kỳ nội dung do AI tạo ra trên Internet.

Sự bác bỏ này ‘có sức thuyết phục như những gì chúng ta thấy trong bất cứ bài báo được xuất bản nào’, Sun nói. Tunstall cho biết thêm là dẫu ông không chắc 100% là R1 không được huấn luyện dựa trên ví dụ của OpenAI, việc lặp lại nỗ lực ở các phòng thí nghiệm khác cho thấy công thức của DeepSeek cho suy luận có thể là đủ tốt mà không cần điều này. “Tôi nghĩ bằng chứng này giờ rõ ràng là bạn có thể có được một hiệu suất cao chỉ từ học tăng cường thuần túy”, ông nói.

Với các nhà nghiên cứu, R1 vẫn rất cạnh tranh, Sun nói. Trong một cuộc thi hoàn tất  các nhiệm vụ khoa học như phân tích và trực quan hóa dữ liệu như  ScienceAgentBench, Sun và cộng sự phát hiện ra dẫu R1 không phải là đứng đầu về độ chính xác nhưng là một trong những mô hình tốt nhất theo nghĩa cân bằng năng lực và chi phí.

Các nhà nghiên cứu khác đang cố gắng áp dụng phương pháp đã tạo ra R1 để cải thiện các năng lực giống như suy luận của các mô hình ngôn ngữ lớn hiện có như mở rộng chúng cho các miền nằm ngoài toán học và viết mã, Tunstall nói và cho biết thêm, theo cách này, R1 đã “khởi động một cuộc cách mạng”.

Thanh Hương dịch từ Nature

Nguồn: doi: https://doi.org/10.1038/d41586-025-03015-6

Tác giả

(Visited 11 times, 11 visits today)