Mô hình ChatGPT o1 mới nhất đánh bại các nhà khoa học
Chatbot o1 trở nên vượt trội về khoa học, thậm chí đánh bại các Tiến sĩ trong một bài kiểm tra khoa học hóc búa. Song, nó có thể “ảo giác” nhiều hơn các phiên bản trước.
Các nhà nghiên cứu giúp thử nghiệm mô hình ngôn ngữ lớn mới của OpenAI – OpenAI o1 – cho biết đây là một bước tiến lớn về tính hiệu quả của chatbot trong khoa học.
“Trong lĩnh vực vật lý lượng tử của tôi, nó đưa ra những phản hồi mạch lạc và chi tiết hơn đáng kể” so với mô hình trước của công ty là GPT-4o, theo ông Mario Krenn. Krenn là người đứng đầu Phòng thí nghiệm Nhà khoa học Nhân tạo tại Viện Khoa học Ánh sáng Max Planck tại Erlangen (Đức). Ông nằm trong số ít nhà khoa học ở “đội đỏ” – những người sát hạch phiên bản thử nghiệm o1 cho công ty OpenAI bằng cách thử thách chatbot và kiểm tra vấn đề an toàn.
Kể từ khi ChatGPT ra mắt công chúng vào năm 2022, các mô hình ngôn ngữ lớn điều khiển những chatbot như vậy trung bình đã trở nên lớn hơn và tốt hơn, với nhiều tham số hoặc nút ra quyết định hơn; bộ dữ liệu đào tạo lớn hơn; và có khả năng mạnh mẽ hơn trong nhiều bài kiểm tra chuẩn hóa hoặc tiêu chuẩn so sánh.
OpenAI cho biết mẫu o1 đánh dấu một bước chuyển trong cách tiếp cận của công ty. Các nhà quan sát cho rằng đặc điểm nổi bật của mô hình trí tuệ nhân tạo (AI) này là nó dành nhiều thời gian hơn cho một số giai đoạn học tập, và “suy nghĩ” về câu trả lời lâu hơn, tuy chậm hơn nhưng lại có năng lực hơn – nhất là trong các lĩnh vực có thể rõ ràng xác định câu trả lời đúng – sai. OpenAI nói thêm rằng o1 “có thể lập luận thông qua những nhiệm vụ phức tạp và giải quyết những vấn đề khó hơn so với các mô hình trước đấy trong khoa học, mã hóa và toán học”. Hiện nay, bản dùng thử o1 và o1-mini – một phiên bản nhỏ hơn, tiết kiệm hơn phù hợp cho mã hóa – đã ra mắt người dùng trả phí và một số nhà phát triển trên cơ sở thử nghiệm. Công ty chưa công bố thông tin chi tiết về số lượng tham số hoặc sức mạnh tính toán nằm sau các mô hình o1.
Đánh bại Tiến sĩ
Nhà hóa học Andrew White từ tổ chức phi lợi nhuận FutureHouse tập trung vào cách ứng dụng AI vào sinh học phân tử. Ông cho biết các nhà quan sát đã ngạc nhiên và thất vọng khi chatbot thiếu cải thiện về khả năng hỗ trợ nhiệm vụ khoa học kể từ khi GPT-4 phát hành. White nhận định mẫu o1 đã thay đổi điều đó.
Đáng chú ý, o1 là mô hình ngôn ngữ lớn đầu tiên đánh bại các học giả Tiến sĩ trong loạt câu hỏi khó nhất thuộc bài kiểm tra Graduate-Level Google-Proof Q&A Benchmark (GPQA). OpenAI cho biết các học giả chỉ đạt điểm dưới 70% trong bài kiểm tra GPQA Diamond, còn o1 đạt tổng điểm 78%, đặc biệt đạt điểm cao trong môn vật lý là 93%.
OpenAI cũng cho o1 làm bài thi năng lực cho cuộc thi Olympic Toán quốc tế. Mô hình tốt nhất trước đó là GPT-4o chỉ giải đúng 13% bài toán, còn o1 giải đúng 83%.
Chuỗi suy nghĩ
OpenAI o1 hoạt động bằng cách sử dụng logic chuỗi suy nghĩ; nó tự thực hiện một loạt các bước suy luận khi cố gắng giải quyết vấn đề, tự sửa lỗi khi tiến hành.
OpenAI giữ kín thông tin chi tiết về chuỗi suy nghĩ — phần nào vì chuỗi này có thể chứa lỗi hoặc “những suy nghĩ” không được xã hội chấp nhận, và một phần để bảo vệ các bí mật của công ty liên quan tới cách mô hình hoạt động. Thay vào đó, o1 cung cấp một bản tóm tắt tái hiện logic cùng với câu trả lời của nó cho người dùng. White cho biết hiện chưa rõ là liệu toàn bộ chuỗi suy nghĩ, nếu được tiết lộ, có tương tự với lý luận của con người hay không.
Nhưng o1 cũng phải đánh đổi khi có được năng lực mới. Chẳng hạn, OpenAI thông báo họ đã nhận được phản hồi chủ quan rằng các mô hình o1 ảo giác — tức là nó đưa ra câu trả lời không chính xác — thường xuyên hơn các mô hình trước (mặc dù thử nghiệm nội bộ của công ty cho thấy tỷ lệ ảo giác của o1 thấp hơn một chút).
Các nhà khoa học trong đội đỏ lưu ý rằng o1 hữu ích trong việc đề ra phác đồ cho thí nghiệm khoa học ở nhiều phương diện, nhưng OpenAI cho biết những người kiểm thử “đã nêu bật thông tin an toàn còn thiếu liên quan tới các bước có hại, chẳng hạn như không nêu rõ nguy cơ nổ hoặc gợi ý phương pháp ngăn tràn hóa chất không phù hợp, chỉ ra mô hình này không phù hợp để tin tưởng trong các nhiệm vụ an toàn vật lý có rủi ro cao”.
“Nó vẫn chưa đủ hoàn hảo hay đáng tin cậy đến độ bạn không muốn kiểm tra kỹ lưỡng”, White nói. Ông nói thêm rằng o1 phù hợp để hướng dẫn các chuyên gia hơn người mới vào nghề. “Với người mới bắt đầu, họ chưa đủ khả năng kiểm tra tức thì để biết phác đồ mà o1 tạo ra là ‘vớ vẩn’”.
Công cụ giải quyết vấn đề khoa học
Krenn cho rằng o1 sẽ thúc đẩy khoa học bằng cách quét tài liệu, xem còn thiếu điều gì và gợi ra những hướng đi thú vị để nghiên cứu trong tương lai. Ông đã thành công kết nối o1 vào một công cụ mà ông đồng phát triển để thực hiện việc này có tên SciMuse. “Nó tạo ra nhiều ý tưởng thú vị hơn nhiều so với GPT-4 hoặc GTP-4o”, ông nói.
Nhà khoa học dữ liệu Kyle Kabasares tại Viện nghiên cứu môi trường Bay Area đã dùng o1 để sao chép một số mã hóa từ dự án Tiến sĩ của ông để tính toán khối lượng của hố đen. Ông cho biết o1 chỉ mất một tiếng đồng hồ để hoàn thành những nhiệm vụ sẽ ngốn của ông nhiều tháng trời.
Nhà di truyền học Catherine Brownstein tại Bệnh viện nhi Boston cho biết bệnh viện này hiện đang thử nghiệm một số hệ thống AI, bao gồm bản dùng thử o1, cho các ứng dụng như hiểu được mối quan hệ giữa đặc điểm của bệnh nhân và di truyền cho các bệnh hiếm gặp. Bà cho biết o1 “chính xác hơn và đưa ra những lựa chọn mà tôi không nghĩ là của một chatbot”.
Nguồn: ‘In awe’: scientists impressed by latest ChatGPT model o1