Thời của các mô hình ngôn ngữ nhỏ

Điểm yếu của các mô hình ngôn ngữ lớn chính là đất dụng võ của các mô hình ngôn ngữ nhỏ.

Học tiếng Anh không hề đơn giản và rất nhiều người hiểu rõ điều này. Thế nhưng máy tính lại dễ dàng học và nói được ngoại ngữ bất kỳ chỉ bằng một cách đơn giản: đưa vào máy hàng núi văn bản lấy từ Internet, chuyển/nén thành một mô hình mạng nơ-ron khổng lồ là xong. Đó cũng là nguyên tắc hoạt động của ứng dụng ChatGPT của OpenAI đang làm mưa làm gió. Nó trò chuyện mượt mà như con người dù không phải lúc nào cũng trung thực. Nó biết mọi thứ, mọi chủ đề khiến công chúng và cả các nhà nghiên cứu ngạc nhiên trong suốt hơn một năm qua.

Nhưng cách tiếp cận của những mô hình ngôn ngữ lớn (gọi là LLM) này cũng có nhược điểm của nó. Trước hết, việc huấn luyện mô hình để chuyển kho văn bản khổng lồ thành mô hình ngôn ngữ rất tốn tài nguyên tính toán và thời gian. Sau đó, ngay cả những người huấn luyện ra các mô hình ngôn ngữ lớn này cũng không hiểu được cơ chế hoạt động bên trong của chúng; khiến cho người ta không thể lý giải các tình huống mà nó trả lời không đúng (để cải tiến).

Hai nhà khoa học của Microsoft đã huấn luyện các mô hình ngôn ngữ nhỏ bằng dữ liệu là những câu chuyện trẻ em.

Để giải quyết vấn đề này, một số nhà nghiên cứu đã làm việc trên các mô hình nhỏ, dùng ít dữ liệu huấn luyện hơn. Ellie Pavlick, nhà nghiên cứu mô hình ngôn ngữ tại Đại học Brown cho biết: “Nó giống như giải trình tự bộ gene của ruồi giấm trước khi tìm hiểu bộ gene của người”.

Mới đây, hai nhà nghiên cứu của Microsoft đã công bố trên trang arxiv.org một phương pháp mới để huấn luyện các mô hình ngôn ngữ nhỏ: Sử dụng dữ liệu là những câu chuyện trẻ em.

Những nhà nghiên cứu học máy khác không tiếp cận như vậy. Ví dụ GPT-3.5, mô hình ngôn ngữ lớn đằng sau ứng dụng ChatGPT, có gần 200 tỷ tham số và được huấn luyện trên bộ dữ liệu gồm hàng trăm tỷ từ. (OpenAI chưa công bố số liệu tương ứng cho phiên bản kế nhiệm của nó, GPT-4). Việc đào tạo các LLM như vậy thường cần ít nhất 1.000 bộ xử lý chuyên dụng được gọi là GPU chạy song song trong nhiều tuần liền. Chỉ một số công ty có thể tập hợp được các nguồn lực cần thiết để chạy một lần chưa nói đến việc tối ưu hay so sánh các mô hình khác nhau.

Nhưng hai nhà nghiên cứu trên đã chỉ ra rằng mô hình ngôn ngữ của họ nhỏ hơn hàng nghìn lần vẫn có thể nhanh chóng học được cách kể những câu chuyện nhất quán và đúng ngữ pháp. Kết quả của họ gợi ý những hướng nghiên cứu mới có thể áp dụng cho việc huấn luyện các mô hình lớn hơn và hiểu rõ hành vi của chúng.

Chandra Bhagavatula, nhà nghiên cứu mô hình ngôn ngữ tại Viện Trí tuệ nhân tạo Allen ở Seattle, cho biết: “Tôi thấy bài viết này rất nhiều thông tin. “Bản thân ý tưởng này đã cực kỳ thú vị rồi”.

Ngày xửa ngày xưa

Các mạng nơ-ron là trung tâm của các mô hình học máy nói chung bao gồm các mô hình ngôn ngữ lớn. Đó là các cấu trúc toán học được lấy cảm hứng từ bộ não con người. Mỗi mạng nơ-ron chứa nhiều nơ-ron nhân tạo được sắp xếp thành từng lớp, kết nối với các nơ-ron ở các lớp liền kề. Các mô hình mạng nơ-ron sử dụng trọng số của các kết nối này như những tham số. Trong mô hình ngôn ngữ, các tham số kiểm soát những từ mà mô hình có thể dự đoán tiếp theo dựa trên những từ mà người dùng đưa vào ban đầu và những từ mà chính mô hình đã tạo ra trước đó.

Trong mô hình ngôn ngữ, các tham số kiểm soát những từ mà mô hình có thể dự đoán tiếp theo dựa trên những từ mà người dùng đưa vào ban đầu và những từ mà chính mô hình đã tạo ra trước đó.

Ban đầu các trọng số này được khởi tạo ngẫu nhiên không quy luật. Mô hình chỉ thực sự hoạt động được khi trải qua quá trình huấn luyện, là khi máy tính liên tục so sánh đầu ra của chính nó với phần sau của văn bản trong tập dữ liệu huấn luyện và điều chỉnh các tham số trên để tăng độ tương đồng. Sau khi huấn luyện đôi lúc nó cũng đưa ra những từ ngữ lạ một cách hợp lý. Với các mô hình LLM thường có thêm một bước tinh chỉnh để dạy cho mạng nơ-ron trả lời các câu hỏi và làm theo hướng dẫn, nhưng phần lớn quá trình huấn luyện là chỉ cho nó cách dự đoán từ tiếp theo.

Để đoán được từ tiếp theo đòi hỏi mô hình ngôn ngữ phải thành thạo nhiều kỹ năng khác nhau. Ví dụ, các quy tắc ngữ pháp tiếng Anh gợi ý rằng từ tiếp theo sau từ “going” có thể là “to”, bất kể chủ đề của văn bản là gì. Ngoài ra, hệ thống cần có kiến thức thực tế để đoán tiếp câu “thủ đô của nước Pháp là” …, hay như việc hoàn thành một đoạn văn có chứa từ “không” đòi hỏi phải có khả năng nắm bắt các logic cơ bản

Timothy Nguyen, một nhà nghiên cứu máy học tại DeepMind cho biết: “Ngôn ngữ thô rất phức tạp. “Để xây dựng cho mạng nơ-ron có khả năng ngôn ngữ người ta đã phải áp dụng cách đẩy ‘càng nhiều dữ liệu vào càng tốt’.”

Ronen Eldan, một nhà toán học ở Microsoft Research vào năm 2022 đã nghiên cứu các mô hình ngôn ngữ tổng quát. Anh ta muốn tìm cách hiểu chúng nhanh chóng hơn. Cách tự nhiên để làm điều đó là sử dụng một tập dữ liệu nhỏ và điều đó có nghĩa là anh ta phải hướng đến một chủ đề cụ thể để không bị dàn trải quá mỏng. Ban đầu anh ta muốn đào tạo các mô hình để làm toán nhưng vào một buổi chiều sau khi chơi với cô con gái 5 tuổi, anh ta nhận ra rằng những câu chuyện dành cho trẻ em phù hợp hơn.

“Tôi thực sự cảm nhận điều đó sau khi đọc cho con một câu chuyện”, anh nói.

Các mạng neuron có ít lớp hơn nhưng có nhiều neuron trên mỗi lớp sẽ trả lời tốt hơn.

Để tạo ra những câu chuyện trẻ em mạch lạc, một mô hình ngôn ngữ cần tìm hiểu các sự kiện về thế giới, theo dõi các nhân vật và sự kiện cũng như tuân thủ các quy tắc ngữ pháp một cách đơn giản hơn so với những văn bản được sử dụng trong các mô hình LLM. Hơn nữa các mô hình LLM còn tổng hợp vô số những chi tiết không quan trọng từ bộ dữ liệu khổng lồ và có thể lấn át các quy tắc thực sự quan trọng. Eldan hy vọng sự ngắn gọn và vốn từ vựng hạn chế trong các câu chuyện trẻ em có thể giúp việc học của các mô hình nhỏ trở nên dễ quản lý hơn – khiến chúng vừa dễ đào tạo vừa dễ hiểu hơn.

Tuy nhiên trong thế giới của các mô hình ngôn ngữ thì “nhỏ” chỉ là tương đối: Một tập dữ liệu nhỏ hơn một nghìn lần so với tập dữ liệu được sử dụng để huấn luyện GPT-3.5 vẫn còn chứa đến hàng triệu câu chuyện. “Tôi không biết bạn muốn chi bao nhiêu tiền nhưng có lẽ sẽ không đủ để thuê các nhà văn viết ra vài triệu truyện ngắn đâu.” Nguyen nói.

Phải cần một tác giả cực kỳ xuất sắc mới có thể làm được nhiều việc như thế? Eldan đã nghĩ đến một vài ứng cử viên. Còn ai có thể tốt hơn chính các mô hình ngôn ngữ lớn LLM đây?

Xây dựng các câu chuyện mẫu

Eldan ngay lập tức bắt tay vào sử dụng mô hình ngôn ngữ lớn để tạo ra một thư viện truyện thiếu nhi tổng hợp. Nhưng anh ta sớm phát hiện ra rằng ngay cả những mô hình LLM hiện đại nhất cũng không có tính sáng tạo bẩm sinh. Nếu bạn bảo GPT-4 viết những câu chuyện cho trẻ 4 tuổi thì “khoảng 1/5 số câu chuyện sẽ nói về những đứa trẻ đến công viên và sợ cầu trượt”. Bởi vì trên Internet thì đó là những mẩu truyện phổ biến nhất cho trẻ mẫu giáo, Eldan nói.

Các mạng neuron có ít lớp hơn nhưng có nhiều neuron trên mỗi lớp sẽ trả lời tốt hơn các câu hỏi đòi hỏi kiến thức thực tế; ngược lại, các mạng có nhiều lớp hơn và ít neuron hơn trên mỗi lớp sẽ tốt hơn trong việc theo dõi các nhân vật và bám sát cốt truyện.

Giải pháp là thêm một chút ngẫu nhiên vào lời nhắc. Đầu tiên, Eldan sử dụng GPT-4 để tạo ra một danh sách 1.500 danh từ, động từ và tính từ mà một đứa trẻ 4 tuổi có thể biết – đủ ngắn để bé có thể dễ dàng tự kiểm tra. Sau đó, anh ta viết một chương trình máy tính đơn giản chọn ra ba từ ngẫu nhiên trong danh sách trên, bổ sung thêm một đoạn văn ngẫu nhiên ngắn như một kết thúc có hậu hoặc tình tiết khúc mắc nào đó rồi gọi các mô hình GPT-3.5 hoặc GPT-4 để tạo ra một câu chuyện phù hợp. May mắn thay, những câu chuyện sau đó không còn tập trung vào những chuyện ly kỳ trên Internet nữa.

Eldan xây dựng xong quy trình huấn luyện nhưng không biết cần bao nhiêu câu chuyện hoặc không biết cấu trúc mạng nơ-ron cần lớn thế nào? Khi đó anh hợp tác với Yuanzhi Li, một nhà nghiên cứu máy học tại Microsoft và Đại học Carnegie Mellon. Mục tiêu là tạo ra các mô hình nhỏ và huấn luyện rất nhanh. Bước 1 là xác định cách đánh giá mô hình.

Trong nghiên cứu mô hình ngôn ngữ cũng như mọi mô hình học máy khác thì việc đánh giá mô hình là một chủ đề khó. Không có cách đánh giá quy chuẩn nào: cái tốt ở một số nhiệm vụ này thì lại thường thất bại ở những nhiệm vụ khác. Theo thời gian các nhà nghiên cứu đã phát triển nhiều tiêu chuẩn khác nhau dựa trên các câu hỏi có câu trả lời rõ ràng, đây là một cách tiếp cận tốt nếu bạn đang cố gắng đánh giá các kỹ năng cụ thể. Nhưng Eldan và Li quan tâm đến một điều khác: kích thước cần thiết của mô hình ngôn ngữ này là bao nhiêu nếu bạn đã đơn giản hóa ngôn ngữ đầu vào?

Eldan nói: “Để kiểm tra trực tiếp xem mô hình có nói được tiếng Anh hay không, tôi nghĩ điều duy nhất bạn có thể làm là để mô hình tạo ra tiếng Anh theo cách mở”.

Các mô hình với các số lượng tham số khác nhau.

Chỉ có hai cách để đo lường hiệu suất của mô hình đối với các câu hỏi định tính như vậy: Dựa vào chuyên gia hoặc quay lại GPT-4 một lần nữa. Hai nhà nghiên cứu đã chọn cách thứ hai – dùng các mô hình lớn vừa viết truyện vừa chấm điểm cho chúng luôn.

Bhagavatula cho biết ông muốn xem các đánh giá của GPT-4 như thế nào so với đánh giá của chuyên gia. GPT-4 có thiên vị các mô hình mà chính nó tạo ra hay không và tính không rõ ràng của các mô hình ngôn ngữ có khiến việc định lượng những thành kiến đó trở nên khó khăn không?

Eldan và Li sử dụng quy trình hai bước để đánh giá từng mô hình nhỏ của họ sau khi huấn luyện. Đầu tiên, họ cho mô hình nhỏ với một nửa câu chuyện mới không có trong bộ dữ liệu huấn luyện để nó tạo ra một phần kết mới, lặp lại cho 50 mẫu khác nhau. Sau đó, họ dùng GPT-4 chấm điểm từng phần kết của mô hình nhỏ dựa trên ba tiêu chí – tính sáng tạo, ngữ pháp và tính nhất quán với phần đầu câu chuyện.

Với quy trình này Eldan và Li cuối cùng đã sẵn sàng so sánh các mô hình khác nhau và tìm ra đâu là ứng viên xuất sắc.

Kết quả

Sau một số đánh giá sơ bộ hai nhà nghiên cứu đã quyết định chọn một tập dữ liệu chứa khoảng 2 triệu câu chuyện. Họ đặt tên nó là TinyStories và dùng để huấn luyện các mô hình mạng nơ-ron có kích thước từ 1 triệu đến 30 triệu tham số và số các lớp khác nhau. Công việc này khá nhanh chóng, chỉ sử dụng bốn GPU, và mô hình lớn nhất trong số này cũng không mất quá một ngày để huấn luyện.

Những mô hình nhỏ nhất không tốt lắm. Ví dụ, một câu chuyện là “một người đàn ông có vẻ ngoài xấu xí nói với một cô bé rằng ông ta sẽ lấy đi con mèo của cô bé”. Mô hình với vài triệu tham số bị mắc kẹt trong một vòng lặp khi cho ra đoạn truyện tiếp theo là “cô bé liên tục van nài người đàn ông cho kết bạn”. 

Những mô hình lớn hơn- nhưng vẫn nhỏ hơn hàng nghìn lần so với GPT-3.5 – hoạt động tốt một cách đáng ngạc nhiên. Phiên bản 28 triệu tham số biết kể câu chuyện một cách mạch lạc, dù cái kết có phần nghiệt ngã: “Katie bắt đầu khóc, người đàn ông đó không quan tâm. Ông ta mang con mèo đi và Katie không bao giờ gặp lại con mèo của mình nữa. Hết truyện.”

Cách tiếp cận truyền thống để tạo ra các tập dữ liệu ngôn ngữ là thu thập văn bản trên Internet và sàng lọc. Trong khi đó, các văn bản tổng hợp tạo bởi các mô hình lớn cũng có thể được sử dụng như một tập dữ liệu chất lượng cao mà không cần phải quá lớn.

Ngoài việc thử nghiệm các mô hình nhỏ của họ, Eldan và Li còn kiểm tra phiên bản GPT-2 của OpenAI, có đến 1,5 tỷ tham số ra đời vào năm 2019. Tình hình còn tệ hơn nhiều: GPT-2 cho ra một kết thúc đột ngột: “người đàn ông đe dọa sẽ đưa cô ra tòa, bỏ tù, hay thậm chí là vào bệnh viện, nhà xác và lò hỏa táng”.

Nguyen cảm thấy rất thú vị khi những mô hình của họ nhỏ hơn cả 50 lần so với GPT-2 lại kể truyện trôi chảy hơn. Bởi GPT-2 là một mô hình lớn nhưng cấu trúc khác rất nhiều và được đào tạo trên một tập dữ liệu cũng rất khác. Ông nhận định: “Một đứa trẻ mới biết đi tập các nhiệm vụ của trẻ mới biết đi cũng có thể làm tốt hơn chúng ta, chẳng hạn như chơi đồ chơi. Còn người lớn chúng ta không chuyên về những chuyện đơn giản này.”

Việc so sánh các mô hình huấn luyện từ TinyStories cho thấy các yếu tố ảnh hưởng không giống nhau. Eldan và Li thấy rằng các mạng nơ-ron có ít lớp hơn nhưng có nhiều nơ-ron trên mỗi lớp sẽ trả lời tốt hơn các câu hỏi đòi hỏi kiến thức thực tế; ngược lại, các mạng có nhiều lớp hơn và ít nơ-ron hơn trên mỗi lớp sẽ tốt hơn trong việc theo dõi các nhân vật và bám sát cốt truyện. Bhagavatula cho rằng kết quả này đặc biệt hấp dẫn. Ông nói “nếu các kết quả này có thể kiểm chứng ở các mô hình lớn sẽ là một kết quả thực sự tuyệt vời”.

Eldan và Li cũng nghiên cứu tính chất của các mô hình ngôn ngữ nhỏ này phụ thuộc thế nào trong quá trình huấn luyện. Trong mọi trường hợp, các mô hình học ngữ pháp trước và tính nhất quán sau. Theo Eldan, tính chất này cho thấy việc đặt ra hàm tối ưu khác nhau dẫn đến sự khác biệt trong việc mô hình mạng nơ-ron học ngôn ngữ so với trẻ em. Khi các mô hình ngôn ngữ học cách dự đoán các từ, xác suất sinh ra từ ‘Tôi muốn’ sẽ lớn khi nó đứng gần từ ‘kem’ khi trẻ em đòi hỏi. Mặt khác, trẻ em thì lại “không phân biệt sự khác biệt giữa câu ‘Con muốn ăn kem’ hay chỉ ‘kem, kem, kem’.”

Chất lượng so với số lượng

Eldan và Li hy vọng nghiên cứu này sẽ thúc đẩy các nhà nghiên cứu khác đào tạo các mô hình khác nhau trên bộ dữ liệu TinyStories và so sánh khả năng của chúng. Nhưng thường rất khó dự đoán những đặc điểm nào của mô hình nhỏ cũng sẽ xuất hiện ở các mô hình lớn.

“Có thể việc học các mô hình thị giác của chuột thực sự tốt cho việc nghiên cứu thị giác của con người, nhưng liệu nghiên cứu cách chuột bị trầm cảm có tốt cho chứng trầm cảm của con người không?” Pavlick nói. “Đối với mỗi trường hợp, nó có một chút khác biệt.”

Sự thành công của các mô hình TinyStories còn gợi ra một bài học rộng lớn hơn. Cách tiếp cận truyền thống để tạo ra các tập dữ liệu ngôn ngữ là thu thập văn bản trên Internet và sàng lọc. Trong khi đó các văn bản tổng hợp tạo bởi các mô hình lớn cũng có thể được sử dụng như một tập dữ liệu chất lượng cao mà không cần phải quá lớn.

Eldan cho biết: “Ngày càng có nhiều bằng chứng cho thấy điều này rất hiệu quả, không chỉ ở các mô hình cỡ TinyStories mà còn ở các mô hình lớn hơn”. Điều này được công bố trong một cặp bài báo tiếp theo về mô hình tỷ tham số của Eldan, Li và các nhà nghiên cứu khác của Microsoft. Trong bài báo đầu tiên, họ đã đào tạo một mô hình học ngôn ngữ lập trình Python bằng cách sử dụng các đoạn mã do GPT-3.5 tạo ra cùng với mã được tuyển chọn cẩn thận từ Internet. Trong bước thứ hai, họ tăng cường tập dữ liệu huấn luyện bằng các “sách giáo khoa” tổng hợp, bao gồm nhiều chủ đề khác nhau, để đào tạo một mô hình ngôn ngữ có mục đích chung. Cả hai mô hình đều cho ra kết quả tốt hơn so với các mô hình lớn được huấn luyện trên các tập dữ liệu lớn. Nhưng việc đánh giá các mô hình ngôn ngữ vẫn còn chưa rõ ràng và phương pháp tiếp cận này vẫn còn ở giai đoạn sơ khai – cần có nhiều kiểm tra độc lập hơn.

Khi các mô hình ngôn ngữ tiên tiến ngày càng phát triển thì những phát hiện đáng ngạc nhiên từ những mô hình nhỏ cho thấy rằng vẫn còn nhiều điều chúng ta chưa hiểu. Nguyen hy vọng sẽ có thêm nhiều bài viết khám phá cách tiếp cận do TinyStories làm tiên phong này.

“Câu hỏi đặt ra là: Kích thước ảnh hưởng ở đâu và tại sao lại quan trọng?” anh ấy nói. “Cần có thêm nhiều nghiên cứu về điều này, và bài báo này hy vọng là sự khởi đầu của một câu chuyện phong phú hơn nhiều.” □

Nguyễn Quang dịch

Nguồn:  https://www.quantamagazine.org/tiny-language-models-thrive-with-gpt-4-as-a-teacher-20231005/

Tác giả

(Visited 4 times, 1 visits today)