ChatGPT hay mặt trái tấm huy chương
Gây sốc dư luận chỉ sau một thời gian ngắn xuất hiện, ChatGPT đang làm dấy lên câu hỏi đầy lo ngại về một thế hệ chatbot AI thế hệ mới có thể làm khuynh đảo thế giới. Nhưng có thật sự là chúng thu thập được đủ quyền năng để khiến cho ngành nghề nào đó có thể biến mất vĩnh viễn và qua đó làm thay đổi cuộc sống của chúng ta?
Nhiều người sẽ cho rằng đây là sự lo ngại thái quá trước sự xuất hiện của một chatbot (trợ lý ảo). Nhưng chúng ta hãy đi vào bản chất của vấn đề. Trước tiên, bạn hãy thử hình dung việc luôn có bên mình một trợ lý siêu việt, đọc thông viết thạo hàng trăm thứ tiếng, chỉ dẫn và làm phiên dịch cho bạn ở mọi chỗ mọi nơi, sàng lọc tin tức quan trọng cho bạn, đọc thư và soạn thảo mọi văn bản giúp bạn, nhắc việc và gợi ý cho bạn, dạy bạn đủ thứ, hỏi gì trả lời đó một cách mau lẹ, chính xác và hóm hỉnh, bằng một giọng mà bạn ưa thích nhất, rồi động viên bạn hằng ngày, v.v. Một trợ lý “biết tuốt” toàn năng như vậy, nếu bằng da bằng thịt thì chắc không thể có, nhưng nếu là trợ lý nhân tạo thì đó không còn là một chuyện viễn tưởng xa xôi nữa. Nó đã trở thành một thực tế đang hình thành trước mắt chúng ta, ngay trong thập kỷ này, nhờ vào cuộc cách mạng trí tuệ nhân tạo.
Nếu như chỉ cách đây ít lâu, bạn và tôi còn không nghĩ tới hay còn rất hoài nghi về chuyện này thì nay sự xuất hiện của ChatGPT và các phần mềm trí tuệ nhân tạo tương tự đã tạo nên cú sốc, xóa bỏ nỗi hoài nghi đó.
Một ChatGPT hoàn hảo?
ChatGPT đang gây một làn sóng lớn trên thế giới, báo chí hằng ngày tốn không biết bao nhiêu giấy mực để viết về nó. Nhưng về thực chất, ChatGPT chỉ là một phần mềm trợ lý ảo “hỏi gì đáp đó” do công ty Open AI công bố vào cuối năm 2022 (xem https://chat.openai.com/ hoặc có thể tải ứng dụng cho điện thoại). Chỉ sau hai tháng kể từ khi công bố, ChatGPT đã cán mốc 100 triệu người dùng, một kỷ lục từ trước đến nay cho các dịch vụ phần mềm.Từ GPT-2 (thế hệ 2 của ChatGPT xuất hiện năm 2019) cho đến GPT-3 (thế hệ hiện tại của ChatGPT) đã là một bước tiến rất lớn. Các câu trả lời có nghĩa của nó đã tăng lên rất nhiều, và sắp tới GPT-4 ra đời được dự đoán sẽ còn giỏi hơn nhiều lần nữa, thậm chí tới mức có thể gây sốc cho người dùng.
Một điểm đáng chú ý là nguyên tắc sử dụng ChatGPT rất đơn giản: sau khi đăng nhập, bạn có thể viết bất cứ một câu hỏi hay bình luận gì, bằng tiếng Việt hay tiếng Anh hay bất kỳ thứ tiếng thông dụng nào khác, ChatGPT sẽ đưa ra câu trả lời bằng thứ tiếng mà bạn sử dụng.
Trong rất nhiều trường hợp, câu trả lời do ChatGPT đưa ra khá hợp lý và có ích. Có ích đến mức mà các lập trình viên khi cần viết một đoạn code nhỏ nào đó cũng có thể hỏi Chat GPT viết hộ, các bác sĩ cũng nhờ ChatGPT viết giải thích về các căn bệnh, v.v. Thậm chí đã có nhiều sinh viên gian lận trong thi cử bằng cách dùng ChatGPT để làm những bài luận mà đáng nhẽ họ phải tự làm, dẫn đến việc các trường đại học phải thiết lập các biện pháp phát hiện chuyện này. Có lẽ chúng ta sẽ không ngạc nhiên lắm nếu như đến ngày có cả những luận án tiến sĩ được viết bằng ChatGPT hoặc những trợ lý ảo tương tự!
Một thứ tiện lợi như vậy không phải không có mặt trái. Bạn sẽ phải rất thận trọng khi dùng ChatGPT và những trợ lý ảo tương tự, bởi chúng có thể bịa đặt, đưa ra những câu trả lời “tưởng như đúng rồi” nhưng thực ra là nói nhảm. Ví dụ, khi được hỏi “hãy cho danh sách các bài báo khoa học của tác giả xyz”, ChatGPT liền đưa ra những tên bài báo… hoàn toàn bịa đặt. Sở dĩ có chuyện này là bởi thực ra trong trí nhớ của ChatGPT, không hề có tên các bài báo đó. Thực chất trong quá trình huấn luyện, nó chỉ từng được xem các tên bài báo đó và ghi nhớ không phải đầy đủ các tên bài mà chỉ là các cụm từ. Do đó, khi được hỏi, nó đã nhanh chóng “xào xáo”, lấy “râu ông nọ cắm cằm bà kia”, trộn các cụm từ đó vào với nhau để tạo thành các tên bịa mà thoạt nhìn bạn cứ tưởng như thật!
Những tình huống như thế này không phải là cá biệt. Một ví dụ khác, khi được hỏi về một chỉ số đo độ nặng của một loại bệnh về da, ChatGPT đã điềm nhiên trả lời là người ta tính nó bằng cách đo độ nặng của bệnh trên bốn phần của cơ thể là đầu, thân, chân tay, và móng, rồi cộng lại với nhau. Dĩ nhiên, đây là câu trả lời bịa (nhưng thực chất những ai không biết thì vẫn sẽ có thể tin là thật), vì chuyện đo độ nặng của bệnh trên bốn phần khác nhau trên cơ thể là điều có thật nhưng bốn phần đó là đầu, thân, chi trên (tay) và chi dưới (chân) chứ không có móng. Ngài trợ ý ảo đã vơ cả móng vào trong “công thức” của mình, có lẽ bởi nó đã được nhai đi nhai lại nhiều lần dữ liệu về việc móng cũng có liên quan đến bệnh da này.
Tuy có những giới hạn nhưng Microsoft, ông chủ của ChatGPT, lại rất hào hứng về nó. Công ty đầu tư hàng tỷ USD vào Open AI này cho rằng, hãy chú ý vào tỷ lệ trả lời có nghĩa của ChatGPT vào khoảng 70%. Không phải vô cớ mà ông Jean-Noel Barrot, Bộ trưởng về Truyền thông và Chuyển đổi số ở Pháp, nói rằng ChatGPT “chẳng qua là một con vẹt”. Dĩ nhiên là ngay cả khi có khiếm khuyết thì những “con vẹt” này cũng rất đáng gờm, bởi chúng có khả năng học rất nhanh những cấu trúc và thông tin mới, càng ngày càng tinh tế và thông minh lên. Từ GPT-2 (thế hệ 2 của ChatGPT xuất hiện năm 2019) cho đến GPT-3 (thế hệ hiện tại của ChatGPT) đã là một bước tiến rất lớn. Các câu trả lời có nghĩa của nó đã tăng lên rất nhiều, và sắp tới GPT-4 ra đời có lẽ sẽ còn giỏi hơn nhiều lần nữa, thậm chí người ta dự đoán là nó còn có khả năng gây sốc cho người dùng rất nhiều bằng năng lực ngày một được đắp bồi.
Một chút lịch sử
ChatGPT không ra đời từ con số không. Đằng sau nó là cả một lịch sử dài những phát triển của công nghệ. Có thể coi lịch sử của trợ lý ảo bắt đầu từ những năm 1960, khi giáo sư Weizenbaum ở Đại học MIT nghĩ ra một chatbot (phần mềm đối thoại người với máy), đặt tên là ELIZA. Ban đầu, thuật toán ELIZA chỉ biết làm một số động tác đơn giản, ví dụ như lặp lại mấy từ mà người dùng đưa vào, thêm vào đó mấy cấu trúc câu mà nó có sẵn trong bộ nhớ, còn tất nhiên là không hiểu gì về nội dung. Nhưng chỉ cần thế đã đủ tạo ra những “cuộc nói chuyện rất riêng tư” giữa ELIZA và cô thư ký của Weizenbaum.
Ngay cả những “gã khổng lồ” như Google cũng cảm thấy mối đe dọa chiếm lĩnh thị trường tra cứu thông tin (search engine) từ ChatGPT, đến mức phải cấp bách thay đổi chiến lược, tập trung đầu tư vào những giải pháp cạnh tranh.
Từ đó đến nay, cuộc cách mạng về học máy (machine learning), đi kèm với cuộc cách mạng về hiệu suất tính toán, đặc biệt là trong lĩnh vực xử lý ngôn ngữ tự nhiên, đã làm thay đổi hoàn toàn diện mạo của các trợ lý ảo.
Một bước tiến quan trọng trong việc xử lý ngôn ngữ tự nhiên (natural language processing) bằng trí tuệ nhân tạo là phương pháp Word2vec xuất hiện vào năm 2013 cho phép chuyển các từ ngữ thành các vec-tơ (các bộ số có độ dài cho trước, hay có thể hiểu như là các điểm trong không gian Euclid nhiều chiều). Việc chuyển đổi này được cổ xúy vì máy tính làm việc với các bộ số thì tiện hơn nhiều so với làm với với các từ ngữ. Hơn nữa, vị trí tương đối giữa các vec-tơ với nhau phản ánh quan hệ giữa các từ tương ứng với nhau, ví dụ như (đàn ông) – (đàn bà) cho ra vec-tơ tương tự như (hoàng tử) – (công chúa), vì vậy khi tính toán với các vec-tơ, ta luôn nhận được luôn quan hệ giữa các từ trong câu.
Từ trước đó, vào thập kỷ 1980 đã xuất hiện một loại mạng thần kinh nhân tạo gọi là RNN (recurrent neural netwoork tạm dịch là mạng thần kinh có lặp) có thể học xử lý ngôn ngữ tự nhiên, do nhà khoa học Hopfield và nhà tâm lý học Rumelhart ở Mỹ đề xuất. Ta hình dung một văn bản hay một đoạn âm thanh như một chuỗi thời gian, trong đó các từ mới (âm thanh mới) xuất hiện dần dần. Mạng RNN sẽ xử lý lần lượt (kiểu “lặp đi lặp lại”) từng từ (từng âm thanh) một khi nó xuất hiện, và có giữ một chút trí nhớ về những từ vừa xử lý trước đó.
Vào năm 1997, hai giáo sư người Đức tên là Hochreiter và Schmidhuber đưa ra một cải tiến quan trọng của RNN, gọi là LSTM (long short-term memory = trí nhớ ngắn hạn kéo dài?), không những chỉ nhớ một cụm từ phía trước mà còn nhớ được “dư âm” của những từ xuất hiện từ trước đó, lâu hơn trong văn bản. Có thể nói, sự kết hợp giữa phương pháp Word2vec với mạng thần kinh nhân tạo LSTM đã cho ra những công cụ xử lý ngôn ngữ tự nhiên (chatbot, máy dịch tự động văn bản, v.v.) tốt nhất trong thập kỷ 2010.
Transformer cho trợ lý ảo
Đây không phải là tên bộ phim hành động khoa học viễn tưởng của Hollywood. Transformer (tạm dịch là cấu trúc biến đổi) là tên một cấu trúc mạng thần kinh nhân tạo mới được các nhà nghiên cứu ở Google và ở Đại học Toronto công bố vào năm 2017 (Xem bài báo: https://arxiv.org/pdf/1706.03762.pdf). Sức ảnh hưởng của Transformer rất lớn bởi nói chung tất cả các công nghệ xử lý ngôn ngữ tự nhiên thế hệ mới, từ BERT rồi BARD của Google cho đến GPT của Open AI (công nghệ nền tảng của ChatGPT) cho đến BART của Facebook v.v. đều dựa trên cấu trúc này.
Bản thân GPT trong ChatGPT là viết tắt của cụm từ Generative Pretrained Transformer. (Generative có nghĩa là có chức năng sinh sôi sáng tạo, còn Pretrained có nghĩa là nó đã được học trên một tập dữ liệu khổng lồ để ghi nhớ được nhiều khái niệm hay cấu trúc quan trọng trước khi huấn luyện sâu thêm cho lĩnh vực cụ thể nào đó).
Vậy cấu trúc Transformer khác biệt RNN và LSTM ở những điểm nào mà “gây bão” dư luận đến vậy? Ở đây có thể kể ra hai điểm khác biệt chính như sau:
Điểm thứ nhất liên quan đến một nhược điểm rất lớn của RNN và LSTM, đó là chúng xử lý các văn bản một cách lần lượt (sequential) theo trình tự từng từ một, và quá trình học của nó cũng theo kiểu lần lượt như vậy. Nhưng ngày nay không cần phải là chuyên gia tin học cũng có thể biết rằng muốn xử lý nhanh thì phải theo kiểu song song (parallel, rất nhiều thứ cùng một lúc) chứ không lần lượt. Các bộ xử vi xử lý hình ảnh hiện đại trong máy tính hay điện thoại mà bạn dùng hằng ngày đều dựa trên khả năng xử lý song song. Đó là công của Transformer bởi nó đã biến đổi thông tin ngôn ngữ tự nhiên thành dạng có thể xử lý song song thay vì lần lượt. Đây là nguyên do giải thích vì sao nó học được rất nhanh rất nhiều hơn so với các công nghệ trước.
Điểm thứ hai là Transformer tính toán các hệ số attention (chú ý) và self-attention (tự chú ý) – tính xem từ nào thì quan trọng hơn đối với từ nào trong ngữ cảnh của đoạn văn, điều mà RNN/LSTM không làm được. Các hệ số attention đó cho phép mô tả chính xác hơn cấu trúc ngữ pháp, quan hệ giữa các từ, và do đó “hiểu” chính xác hơn, dịch chính xác hơn.
Nếu một quốc gia nào đó không kiểm soát được trợ lý ảo nào, thì thậm chí lịch sử của quốc gia đó có thể bị kẻ khác viết lại thông qua các trợ lý ảo của họ được thế giới dùng.
Với những điểm mới này, các trợ lý ảo dựa trên Transformer không những học được cách trả lời cho đúng mà còn dễ học được cả cách cá nhân hóa (personalization). Nhờ vậy nó có thể đóng vai người làm nghề này hay nghề khác (trên thực tế thì bác sĩ nói năng một kiểu, nghệ sĩ nói năng kiểu khác), và đóng vai trạng thái cảm xúc này hay cảm xúc khác (AI cũng biết giả vờ vui, buồn, giận dỗi, vv), vv
Tuy mới đầu được thiết lập để xử lý ngôn ngữ tự nhiên, nhưng ý tưởng Transformer, đặc biệt là ý tưởng về attention, cũng được dùng để xử lý ảnh và các loại thông tin, tín hiệu khác một cách hết sức hiệu quả. Để có cái nhìn toàn cảnh, chúng ta có thể xem một danh sách khá đầy đủ các phần mềm AI được thiết kế trên thế giới sử dụng transformer ở đây: https://huggingface.co/docs/transformers/index)
Ích gì từ cuộc chạy đua AI mới?
Sự xuất hiện của ChatGPT đang làm dấy lên nhiều câu hỏi về sự tồn tại của nhiều ngành nghề trên thế giới trong tương lai. Khó có thể đưa ra ngay được một lời nhận xét xác đáng nhưng theo giáo sư Oder Netzer phó trưởng khoa ở Columbia Bisuness School, thì “thế giới đã không còn như trước nữa” sau khi ChatGPT xuất hiện. Rất nhiều doanh nghiệp và ngành nghề “tụt hậu về trí tuệ nhân tạo” bắt đầu cảm thấy bị đe dọa xóa sổ trong tương lai gần, và ngược lại, rất nhiều cơ hội làm giàu mới đầy hứa hẹn cũng xuất hiện với tổng giá trị được dự đoán lên tới hàng nghìn tỷ USD. Ngay cả những “gã khổng lồ” như Google cũng cảm thấy mối đe dọa chiếm lĩnh thị trường tra cứu thông tin (search engine) từ ChatGPT, đến mức phải cấp bách thay đổi chiến lược, tập trung đầu tư vào những giải pháp cạnh tranh.Tài trí của ChatGPT khiến người ta quan tâm đến công ty Open AI, tác giả của ChatGDT. Đây là một công ty mới được thành lập từ năm 2015 nhưng được đầu tư cả tỷ USD ngày từ đầu, và có Elon Musk (tỷ phú công nghệ giàu nhất nhì thế giới) trong danh sách các nhà sáng lập. Chính Musk là người đặt tên Open (có nghĩa là “mở”) cho công ty này, và mục đích ban đầu của công ty là tạo ra các phần mềm AI mã nguồn mở phục vụ cả nhân loại. Ngoài ChatGPT, Open AI còn có các dự án AI rất nổi tiếng khác, ví dụ như DALL-E-2 cho phép sáng tác các bức tranh ứng với các câu văn mà người dùng đưa vào. Tuy nhiên, chính theo lời của Musk, Microsoft đang càng ngày càng thâu tóm Open AI để phục vụ cho việc thống lĩnh thị trường và làm tiền của họ, do đó ngày càng xa rời ý tưởng “phần mềm mở” ban đầu. Về cơ bản, ý tưởng thuật toán của GPT và những phần mềm xử lý ngôn ngữ tự nhiên tượng tự không khó, ai cũng có thể sao chép và mang về máy của mình, xào xáo một chút, cho nó học trên bộ dữ liệu của mình, để rồi tạo ra một trợ lý ảo chuyên về lĩnh vực nào đó hoặc là trợ lý ảo vạn năng. Cái khó ở đây là làm sao để các thuật toán đằng sau trợ lý ảo đó có thể xử lý được các biến số trên quy mô lớn và hiệu quả cao. Các mô hình mạng thần kinh nhân tạo xử lý ngôn ngữ tự nhiên quy mô lớn (LLM – large language model) hiện tại có đến hàng trăm tỷ biến số (learnable parameters), và những mô hình sắp tới của các “đại gia” AI sẽ có đến hàng nghìn tỷ biến số. Để dễ hình dung thì chúng ta biết là các mô hình AI xử lý ảnh thông dụng hiện tại có lượng biến số còn chưa bằng 1/1000 như vậy.
Sẽ còn rất nhiều điều nữa để cho ra đời những trợ lý ảo thông minh toàn năng dạng ChatGPT. Ước tính hiện tại cần đầu tư ít nhất 50 triệu USD tiền máy tính mới đủ sức tính toán cho việc học máy để tạo ra phần mềm như ChatGPT. Tuy nhiên, chúng ta biết là với các công ty lớn và các quốc gia, con số 50 triệu USD đó không phải là rào cản gì quá ghê gớm. Có thể là sẽ có rất nhiều công ty và quốc gia sẽ tham dự cuộc chạy đua tạo ra trợ lý ảo AI tầm cỡ vượt bậc hơn cả ChatGPT, một cuộc chạy đua không chỉ cần đến những đồng tiền đầu tư mà cả một nguồn nhân lực liên quan.
Tại sao họ sẽ không tiếc tiền đầu tư vào những trợ lý ảo như vậy? Hẳn phải có mục tiêu nào khác ngoài việc để nó có thể hỗ trợ trả lời cho mấy câu hỏi “chơi chơi”? Những gì diễn ra trên thế giới này, trong vòng cả thập kỷ diễn tiến sôi động và mau lẹ qua, cho chúng ta thấy một điều: ai kiểm soát thông tin, người đó sẽ nắm quyền lực. Điều đó có nghĩa là, nếu một quốc gia nào đó không kiểm soát được trợ lý ảo nào thì thậm chí lịch sử của quốc gia đó có thể bị kẻ khác viết lại thông qua các trợ lý ảo của họ được thế giới dùng.□