Mô hình Vật lý tạo cảm hứng cho các thuật toán sinh ảnh nghệ thuật AI
Các mô hình AI đã học cách đảo ngược quá trình khuếch tán, như vết mực loang trong nước tự nhiên thu lại, để tạo ra những bức ảnh không tưởng.
Nếu yêu cầu DALL·E 2, một phần mềm sinh ảnh của OpenAI, vẽ một bức tranh “cá vàng uống Coca-Cola trên bãi biển,” và nó sẽ tạo ra những hình ảnh thật đến không tưởng. Phần mềm này có thể đã được huấn luyện với các hình ảnh bãi biển, cá vàng và Coca-Cola riêng biệt, nhưng khó có thể có một một hình ảnh thực nào có cả ba yếu tố này, nhất là khi cá biết uống Coca. Vậy mà DALL·E 2 đã tổng hợp những khái niệm này và tạo sinh ra hình ảnh đúng theo phong cách của Dalí.
DALL·E 2 thuộc nhóm các mô hình tạo sinh AI, học trên dữ liệu đào tạo để tạo ra một dữ liệu mới, có thể chưa từng có, có chất lượng và sự đa dạng tương tự dữ liệu đưa vào học. Đây là một trong những bài toán khó nhất trong học máy và chúng ta đã trải qua một hành trình đầy khó khăn để đến được như ngày hôm nay.
Mô hình tạo sinh đầu tiên cho hình ảnh chính là mạng nơron – một mô hình bao gồm nhiều lớp chứa các đơn vị tính toán gọi là nơ-ron nhân tạo. Mặc dù nó có thể tạo ra hình ảnh ngày càng chất lượng hơn nhưng chúng không ổn định và khó huấn luyện. Trong khi đó đã có một mô hình tạo sinh hiệu quả được tạo ra bởi một nhà nghiên cứu Postdoc đam mê về vật lý nhưng ít ai biết đến. Và chỉ khi hai nghiên cứu sinh khác triển khai thêm một số kỹ thuật đột phá, con mãnh thú mới trở lại cuộc sống.
DALL·E 2 chính là một mãnh thú như vậy. Nó và các phần mềm tương đương như Stable Diffusion và Imagen đều lấy cảm hứng từ thế giới vật lý. Điều tạo cảm hứng cho các mô hình này chính là quá trình khuếch tán, ví dụ trong sự lan truyền của chất lỏng và chất khí. Các quá trình này được giải thích bởi lý thuyết nhiệt động lực học không cân bằng. Yang Song, một nhà nghiên cứu về máy học tại OpenAI cho biết: “Có rất nhiều kỹ thuật ban đầu được các nhà vật lý phát minh ra và trở nên quan trọng trong học máy”.
Sức mạnh của những mô hình tạo sinh này đã làm rung chuyển ngành công nghiệp AI. Anima Anandkumar, nhà khoa học máy tính tại Viện Công nghệ California và là giám đốc cấp cao về nghiên cứu máy học tại Nvidia cho biết: “Đây là thời điểm thú vị cho các mô hình tạo sinh”. Và mặc dù những hình ảnh trông như thật do các mô hình khuếch tán tạo ra đôi khi có thể mang thành kiến về văn hóa xã hội, nhưng “chúng tôi đã chứng minh rằng các mô hình tạo sinh này có đóng góp rất hữu ích trong việc tạo ra các mô hình dự báo AI công bằng”, cô nói.
Xác suất cao
Để hiểu cách hoạt động của mô hình tạo sinh ảnh, hãy bắt đầu với một hình ảnh đơn giản chỉ được tạo từ hai điểm ảnh (pixel) với màu xám (ảnh đen trắng), mỗi pixel có giá trị từ 0 (đen hoàn toàn) đến 255 (trắng hoàn toàn). Như vậy hình ảnh được biểu diễn bởi hai giá trị như là một điểm vẽ trong không gian 2D.
Bây giờ nếu chúng ta vẽ nhiều hình ảnh dưới dạng điểm như trên, có thể xuất hiện các cụm. Đó là những hình ảnh mà giá trị pixel tương ứng của chúng xuất hiện thường xuyên hơn các hình ảnh khác. Bây giờ hãy tưởng tượng một bề mặt phía trên mặt phẳng, trong đó chiều cao của bề mặt tương ứng với mật độ của các cụm. Bề mặt chính là một phân bố xác suất. Ở những nơi cao nhất của bề mặt sẽ có nhiều điểm hơn và những nơi bề mặt thấp nhất sẽ có rất ít điểm.
Và bạn có thể sử dụng phân phối xác suất này để tạo hình ảnh mới. Tất cả những gì bạn cần làm là tạo ngẫu nhiên các điểm dữ liệu mới tuân theo phân phối xác suất này, tức là nơi nào có xác suất cao thì cần tạo ra nhiều dữ liệu hơn. Đây còn gọi là quá trình “lấy mẫu” phân phối. Mỗi điểm mới sẽ là một hình ảnh mới.
Phương pháp tương tự có thể áp dụng cho những bức ảnh đen trắng thực tế với kích thước 1000×1000 pixel, mỗi ảnh có tổng cộng một triệu pixel. Và chúng ta hình dung sẽ biểu diễn mỗi hình ảnh trong một không gian một triệu chiều. Phân bố xác suất của những hình ảnh sẽ là một bề mặt trong một không gian 1.000.001 (một triệu cộng một) chiều. Và mỗi khi chúng ta lấy mẫu của phân phối này ta sẽ tạo ra được một ảnh với một triệu giá trị pixel. Ảnh đó có thể trông giống như một bức ảnh từ tập dữ liệu gốc.
Thách thức của các mô hình tạo sinh là tìm hiểu tính chất của phân bố xác suất này tạo ra từ một bộ dữ liệu hình ảnh huấn luyện. Phân phối này hữu ích một phần vì nó tổng hợp thông tin về tập dữ liệu, phần nữa là chúng ta có thể xây dựng phân phối xác suất trên các loại dữ liệu khác nhau (chẳng hạn như văn bản và hình ảnh) để tạo ra các kết quả đầu ra siêu thực, chẳng hạn như một con cá vàng đang uống Coca-Cola trên bãi biển. Anandkumar cho biết: “Bạn có thể kết hợp các khái niệm khác nhau… để tạo ra các kịch bản hoàn toàn mới chưa từng thấy trong dữ liệu đào tạo”.
Vào năm 2014, một mô hình được gọi là mạng đối thủ tổng quát (GAN) là mô hình đầu tiên tạo ra những hình ảnh chân thực. Anandkumar nói: “Mọi người rất hứng thú. Nhưng GAN rất khó huấn luyện: Chúng học phân bố xác suất một cách không đầy đủ, hoặc chỉ tạo ra hình ảnh chỉ từ một tập hợp con của phân bố. Ví dụ: GAN được huấn luyện với hình ảnh của nhiều loại động vật khác nhau nhưng lại chỉ tạo sinh ra hình ảnh của những con chó.
Học máy cần một mô hình mạnh mẽ hơn. Và Jascha Sohl-Dickstein đã cung cấp một giải pháp lấy cảm hứng từ vật lý.
Những đốm hy vọng
Vào khoảng thời gian GAN được phát minh, Sohl-Dickstein, một postdoc tại Đại học Stanford đang nghiên cứu về các mô hình tạo sinh nhưng cũng đồng thời quan tâm đến nhiệt động lực học không cân bằng. Nhánh vật lý này nghiên cứu các hệ thống không ở trạng thái cân bằng nhiệt – những hệ thống trao đổi vật chất và năng lượng bên trong và/hoặc với môi trường bên ngoài.
Ví dụ như một giọt mực xanh khuếch tán trong một bình nước. Lúc đầu, nó tạo thành một đốm đen ở một chỗ. Tại thời điểm này, nếu bạn muốn tính xác suất tìm thấy một phân tử mực trong một thể tích nhỏ nào đó của bình tại một thời điểm bất kỳ, bạn cần tìm được phân bố xác suất mô tả trạng thái ban đầu này, trạng thái trước khi mực bắt đầu lan rộng. Nhưng phân phối này rất phức tạp và khó lấy mẫu.
Nhưng cuối cùng thì mực sẽ khuếch tán khắp bình nước và làm cho toàn bộ nước có màu xanh nhạt. Khi đó, phân bố xác suất của phân tử mực trở nên đơn giản hơn, đồng đều hơn và có thể được mô tả bằng một biểu thức toán học đơn giản. Nhiệt động lực học không cân bằng mô tả phân bố xác suất ở mỗi bước trong quá trình khuếch tán này. Điều quan trọng là mỗi bước đều có thể đảo ngược được – tức là bạn có thể đi ngược lại một bước rất nhỏ, chuyển từ phân phối đơn giản sang phân phối phức tạp hơn một chút.
Sohl-Dickstein đã dựa trên các nguyên tắc khuếch tán để phát triển một thuật toán cho mô hình tạo sinh. Ý tưởng là đầu tiên, thuật toán biến các hình ảnh phức tạp trong tập dữ liệu huấn luyện thành nhiễu đơn giản – giống như chuyển từ một đốm mực trong bình nước sang trạng thái khuếch tán thành nước màu xanh nhạt – rồi dạy hệ thống cách đảo ngược quá trình, biến nhiễu thành hình ảnh.
Cụ thể hơn, đầu tiên thuật toán lấy một hình ảnh từ tập huấn luyện vẽ như một dấu chấm trong không gian triệu chiều. Thuật toán sau đó thêm một số nhiễu vào từng pixel ở mỗi bước thời gian, tương đương với sự khuếch tán của mực sau một bước thời gian nhỏ. Khi quá trình này tiếp tục, các giá trị của pixel ít có mối quan hệ với giá trị của chúng trong ảnh gốc và các pixel trông giống một phân bố nhiễu đơn giản hơn. (Thuật toán cũng thêm vào một quá trình dịch từng giá trị pixel một chút về giá trị 0 trên tất cả các chiều, tại mỗi bước thời gian. Việc dịch chuyển này ngăn giá trị pixel khuếch tán quá lớn để máy tính có thể dễ dàng tính toán).
Lặp lại điều này cho tất cả các hình ảnh trong tập dữ liệu và chúng ta biến phân bố các chấm phức tạp ban đầu trong không gian triệu chiều (không thể mô tả và lấy mẫu một cách dễ dàng) thành một phân bố các chấm đơn giản, bình thường xung quanh tâm điểm của không gian triệu chiều.
Sohl-Dickstein cho biết: “Chuỗi các quá trình khuếch tán này sẽ từ từ biến phân phối dữ liệu của bạn thành một quả bóng nhiễu thật lớn”. “Quá trình tính xuôi” này tạo ra một phân phối đơn giản hơn mà bạn có thể lấy mẫu một cách dễ dàng.
Tiếp theo là phần học máy: Chúng ta cho đầu vào là các ảnh nhiễu thu được từ quá trình tính xuôi trên, đầu ra là ảnh ít nhiễu hơn của bước ngay trước đó, và mạng nơron sẽ học được mối quan hệ. Ban đầu độ chính xác sẽ chưa cao, nhưng các mạng đó sẽ biết điều chỉnh các thông số cho tốt hơn. Cuối cùng, mạng nơron sẽ có thể biến một hình ảnh nhiễu lấy mẫu từ một phân bố đơn giản thành hình ảnh nét hơn lấy mẫu từ phân bố phức tạp một cách đáng tin cậy.
Mạng nơron cuối cùng chính là một mô hình tạo sinh. Giờ đây, bạn thậm chí không cần hình ảnh gốc để thực hiện quá trình tính xuôi làm nhiễu nó. Bởi bạn đã có bức tranh đầy đủ về phân bố đơn giản ở không gian các ảnh nhiễu. Và chỉ cần lấy mẫu từ không gian này xong, mạng nơron sẽ biến mẫu này thành hình ảnh cuối cùng giống với hình ảnh trong tập dữ liệu huấn luyện ban đầu.
Sohl-Dickstein nhớ lại kết quả đầu tiên của mô hình khuếch tán của mình. “Tôi nheo mắt và thầm đoán đốm màu đó trông giống một chiếc xe tải”. “Tôi đã dành rất nhiều tháng trong đời để nhìn chằm chằm vào các mẫu pixel khác nhau và cố gắng xem đó là vật thể gì. Cuối cùng nó trở thành các vật thể chi tiết hơn nhiều. Tôi rất phấn khích”.
Nhìn về tương lai
Sohl-Dickstein công bố toán mô hình khuếch tán của mình vào năm 2015, nhưng nó vẫn kém xa những gì GAN có thể làm. Mặc dù các mô hình khuếch tán có thể lấy mẫu trên toàn bộ phân phối nhưng hình ảnh sinh ra còn xấu và chạy quá chậm. Sohl-Dickstein nói: “Lúc đó tôi không nghĩ công trình này quá thú vị”.
Nhưng sau nhờ có hai nghiên cứu sinh, đều không biết Sohl-Dickstein và cũng không biết nhau, đã kết nối các điểm từ công trình ban đầu này với các mô hình khuếch tán thời nay như DALL·E 2. Người đầu tiên là Song, một nghiên cứu sinh tiến sĩ tại Stanford. Năm 2019, Song và giáo sư hướng dẫn đã công bố một phương pháp mới để xây dựng các mô hình tạo sinh mà không cần ước lượng phân bố xác suất của tập dữ liệu ảnh (bề mặt của không gian triệu chiều). Thay vào đó, nó ước tính độ dốc của phân bố (coi nó như độ dốc của bề mặt nhiều chiều).
Song nhận thấy kỹ thuật của mình hoạt động tốt nhất nếu trước tiên anh làm nhiễu từng hình ảnh trong tập dữ liệu huấn luyện với mức độ nhiễu ngày càng tăng, sau đó cho mạng nơron dự đoán hình ảnh gốc bằng cách sử dụng độ dốc của phân bố, khử nhiễu nó một cách hiệu quả. Sau khi được đào tạo, mạng nơron có thể lấy mẫu một hình nhiễu từ phân phối đơn giản và dần dần biến hình ảnh đó thành hình ảnh tương tự các ảnh nét trong tập dữ liệu huấn luyện. Chất lượng hình ảnh rất tốt nhưng mô hình còn lấy mẫu chậm. Song nghiên cứu nhưng không hề biết gì về công trình của Sohl-Dickstein. Song nói: “Tôi hoàn toàn không biết gì về các mô hình khuếch tán. “Sau khi bài báo năm 2019 của chúng tôi được xuất bản, tôi nhận được email từ Jascha. Anh ấy đã chỉ ra rằng các mô hình của chúng tôi có mối liên hệ rất chặt chẽ”.
Vào năm 2020, nghiên cứu sinh thứ hai đã nhìn thấy những mối liên hệ đó và nhận ra rằng công trình của Song có thể cải thiện các mô hình khuếch tán của Sohl-Dickstein. Đó là Jonathan Ho, người gần đây bảo vệ luận án tiến sĩ về mô hình tạo sinh tại Đại học California, Berkeley, và vẫn tiếp tục đi theo hướng nghiên cứu đó. “Tôi nghĩ đó là hướng học máy hay nhất về mặt toán học,” Ho nói.
Ho đã thiết kế lại và cập nhật mô hình khuếch tán của Sohl-Dickstein với một số ý tưởng của Song và những kỹ thuật khác từ cộng đồng nghiên cứu mạng nơron. Anh nói: “Tôi biết rằng để thu hút sự chú ý của cộng đồng, tôi cần phải làm cho mô hình tạo ra những hình ảnh đẹp mắt”. “Tôi tin chắc rằng đây là điều quan trọng nhất tôi có thể làm vào thời điểm đó”.
Trực giác của anh đã đúng. Họ và các đồng nghiệp của anh đã công bố mô hình khuếch tán mới cải tiến này vào năm 2020 trong một bài báo có tiêu đề “Mô hình xác suất khuếch tán khử nhiễu” (Denoising Diffusion Probabilistic Models). Nó nhanh chóng trở thành một dấu mốc quan trọng đến mức các nhà nghiên cứu hiện nay gọi nó đơn giản là DDPM. Theo tiêu chuẩn về chất lượng hình ảnh – so sánh việc phân phối hình ảnh được tạo ra với việc phân phối hình ảnh đào tạo – những mô hình này tương đương hoặc đẹp hơn tất cả các mô hình tạo sinh khác, bao gồm cả GAN. Và các hãng công nghệ lớn không chậm chễ. Hiện nay, DALL·E 2, Stable Diffusion, Imagen và các mô hình thương mại khác đều sử dụng một số biến thể của DDPM.
Các mô hình tạo sinh gần nhất có thêm một thành phần quan trọng, nó chứa các mô hình ngôn ngữ lớn (LLM), chẳng hạn như GPT-3. Đây là những mô hình tạo sinh được huấn luyện với dữ liệu văn bản từ Internet để tìm hiểu phân bố xác suất qua từ ngữ thay vì hình ảnh. Vào năm 2021, Ho, nhà khoa học tại một công ty bí ẩn và đồng nghiệp Tim Salimans tại Google Research, cùng với các nhóm khác ở nơi khác đã tìm ra cách kết hợp thông tin từ LLM và mô hình khuếch tán tạo ảnh để có thể hướng dẫn quá trình khuếch tán theo một đoạn văn bản (ví dụ: “cá vàng uống Coca-Cola trên bãi biển”) và từ đó tạo ra hình ảnh tương ứng. Quá trình “khuếch tán có định hướng” này là nền tảng cho sự thành công của các mô hình chuyển văn bản thành hình ảnh như DALL·E 2.
“Chúng vượt xa những mong đợi điên rồ nhất của tôi,” Ho nói. “Tôi không nghĩ có thể làm được như vậy”.
Vấn đề nảy sinh
Mặc dù những mô hình này thành công bước đầu nhưng hình ảnh từ DALL·E 2 hay các mô hình tạo ảnh tương tự vẫn chưa hoàn hảo. Mô hình ngôn ngữ lớn có thể phản ánh những thành kiến về văn hóa và xã hội, chẳng hạn như phân biệt chủng tộc và phân biệt giới tính, trong văn bản mà chúng tạo ra. Đó là bởi vì chúng được huấn luyện bởi những văn bản lấy từ internet và thường những văn bản như vậy chứa ngôn ngữ phân biệt chủng tộc và phân biệt giới tính. Các LLM học phân bố xác suất trên văn bản đó sẽ chứa đựng những thành kiến tương tự. Các mô hình tạo sinh cũng được huấn luyện bởi các hình ảnh chưa được quản lý được lấy từ Internet có thể chứa dữ liệu sai lệch tương tự. Không có gì ngạc nhiên khi việc kết hợp LLM với các mô hình tạo sinh có thể tạo ra những hình ảnh phản ánh những tệ nạn xã hội.
Anandkumar đã nhận ra điều này. Khi tìm cách tạo hình đại diện cho chính mình bằng ứng dụng dựa trên mô hình khuếch tán, cô đã bị sốc. Cô nói: “Nó sinh ra quá nhiều hình ảnh mang tính gợi dục cao, nhưng nếu đầu vào là ảnh cho nam giới thì không.” Cô không đơn độc.
Những sai lệch này có thể được giảm bớt bằng cách quản lý và lọc dữ liệu (một nhiệm vụ cực kỳ khó khăn do lượng dữ liệu khổng lồ) hoặc bằng cách kiểm tra cả đoạn văn bản hướng dẫn đầu vào và đầu ra của các mô hình. Ho nói: “Tất nhiên, không có gì có thể thay thế được việc thử nghiệm an toàn một cách cẩn thận”. “Đây là một thách thức quan trọng đối với lĩnh vực này”.
Bất chấp những lo ngại như vậy, Anandkumar vẫn tin vào sức mạnh của mô hình tạo sinh. “Tôi thực sự thích câu nói của Richard Feynman: ‘Những gì tôi không thể tạo ra thì tôi không hiểu’,” cô nói. Với kinh nghiệm ngày càng tăng nhóm của cô đã phát triển các mô hình tạo sinh để tạo ra dữ liệu của các yếu tố ít phổ biến chẳng hạn như tông màu da tối để nhận dạng khuôn mặt, giúp cải thiện độ công bằng. Các mô hình tạo sinh cũng có thể cung cấp cho chúng ta cái nhìn sâu sắc về cách bộ não của chúng ta xử lý các tín hiệu nhiễu hoặc cách chúng ta hình dung ra những khung cảnh siêu hình, liên tưởng cho tương lai. Và nếu xây dựng các mô hình phức tạp hơn cũng có thể giúp AI vẽ ra những hình ảnh tương tự.
Anandkumar cho biết: “Tôi nghĩ chúng ta mới chỉ đang ở giai đoạn đầu của những gì AI tạo sinh có thể làm ra”.□
Nguyễn Quang dịch
Nguồn bài và ảnh: https://www.quantamagazine.org/the-physics-principle-that-inspired-modern-ai-art-20230105/