AI có mô phỏng được cách viết của con người không?
Với sự phát triển của các mô hình ngôn ngữ lớn (LLMs) như ChatGPT và Llama, một câu hỏi luôn thường trực là liệu các mô hình này có thể mô phỏng được cách viết của con người hay không. Một nhóm các nhà nghiên cứu từ Đại học Carnegie Mellon đã tìm kiếm câu trả lời cho câu hỏi này và công bố kết quả nghiên cứu trên tạp chí Proceedings of the National Academy of Sciences (PNAS).

“Con người chúng ta thường điều chỉnh cách nói và viết tùy vào tình huống. Lúc thì trang trọng, lúc thì không, hoặc với các phong cách khác nhau trong các trường hợp khác nhau. Những gì chúng tôi rút ra được là, các LLM viết theo cách cứng nhắc, không có sự điều chỉnh và còn cách xa so với khả năng thay đổi tùy theo bối cảnh của con người. Trước đây chưa từng có nghiên cứu nào đo lường được điều này như chúng tôi làm ở đây.” PGS. Alex Reinhart tại Khoa Thống kê và Khoa học Dữ liệu – tác giả chính của nghiên cứu, cho biết.
Reinhart và cộng sự đã chứng minh phương pháp viết của các LLM bằng cách đưa cho chúng các đoạn trích khác nhau, như kịch bản phim truyền hình và bài báo khoa học. Kết hợp với sử dụng một đoạn mã do PGS. David West Brown tại Khoa Ngôn ngữ Anh – đồng tác giả của nghiên cứu- viết, họ đã tìm thấy khác biệt lớn về các đặc điểm ngữ pháp, từ vựng và phong cách giữa văn bản do LLMs hoặc con người viết. Với những mô hình được lập trình để đưa ra câu trả lời và làm theo hướng dẫn như ChatGPT, sự khác biệt này càng lớn.
Theo các nhà nghiên cứu, các LLM sử dụng mệnh đề thì hiện tại nhiều gấp 2–5 lần so với con người. Chẳng hạn như một câu do ChatGPT 4o viết “Brian, leaning on his agility, dances around the ring, evading Show’s heavy blows.” Chúng cũng sử dụng các từ được danh từ hóa nhiều gấp 1,5-2 lần so với trung bình của con người. Riêng ChatGPT 4o thì sử dụng câu bị động không có chủ ngữ bằng một nửa so với con người. Điều này cho thấy các LLM được huấn luyện để viết theo phong cách dày đặc thông tin, chứa nhiều danh từ, từ đó làm hạn chế khả năng bắt chước các phong cách khác. Bên cạnh đó, các LLMs được lập trình để trả lời câu hỏi và làm theo hướng dẫn (instruction-tuned) có vốn từ vựng đặc trưng, thường xuyên sử dụng một số từ nhiều hơn so với con người viết trong cùng thể loại.
Brown nói “Các giảng viên đang hết sức lo lắng. Tuy nhiên, ở góc độ một người làm về tính toán và dùng khoa học dữ liệu nghiên cứu cho những người làm ở Khoa ngôn ngữ Anh, tôi thấy những gì AI viết không thực sự giống con người viết. Chúng ta không chỉ viết một lần mà thường viết đi viết lại nhiều lần. Vì vậy câu hỏi ở đây là liệu LLMs có thể tạo ra văn bản phù hợp chỉ sau một lần viết không?”
“Thông điệp mà chúng tôi muốn truyền đạt là hãy cân nhắc kỹ lưỡng những trường hợp nào thì nên sử dụng LLMs. Tôi chỉ quan tâm đến nội dung bác sĩ viết cho tôi chính xác hay không thôi chứ không quan tâm nội dung đó có giống kiểu viết của bác sĩ hay không. Nhưng nếu tôi muốn viết một lá thư xin việc, kiểu viết lại rất quan trọng. Là một người hướng dẫn, người viết và người truyền đạt, chúng ta cần nhận thức được những đặc điểm và thiếu sót riêng biệt của LLMs.”
Reinhart cũng lưu ý những lo ngại nếu học sinh sử dụng LLM để làm bài tập. “Nhiều người nói rằng việc đó cũng giống như dùng máy tính bỏ túi trong tiết toán mà thôi. Nhưng chúng tôi nhận thấy ngôn ngữ của LLMs hoàn toàn khác với máy tính bỏ túi, máy tính bỏ túi sẽ không làm sai hay quên số, còn với LLM bạn sẽ nhận được những văn bản khác với cách viết của người bình thường”. Những người viết chuyên nghiệp biết cách để điều chỉnh đầu ra của LLM cho phù hợp, nhưng học sinh có thể chưa phát triển được kỹ năng này.
Các nhà nghiên cứu cũng đề xuất cần có thêm hiểu biết rộng hơn về nhiều mô hình LLMs hơn nữa nhằm hiểu được tầm quan trọng và tác động của những tinh chỉnh và hướng dẫn với các mô hình này. Một dự án của nghiên cứu sinh Ben Markey đang tìm hiểu về cách mà LLM đánh giá các văn bản của con người, ví dụ như bài luận của học sinh, và liệu những đánh giá đó có hợp lý hay không.” □
Diễm Quỳnh lược dịch
Nguồn: https://www.cmu.edu/dietrich/news/news-stories/2025/february/large-language-models-writing-text.html
Bài đăng Tia Sáng số 5/2025