AI có thể học cách liên kết hình ảnh và âm thanh


Con người có thể học hỏi bằng cách liên kết giữa thị giác và âm thanh. Ví dụ, chúng ta nhìn thấy ai đó chơi cello và nhận ra chuyển động của đôi tay người chơi tạo ra âm thanh mà ta nghe được. 

Một phương pháp mới do các nhà nghiên cứu từ MIT và một số tổ chức khác đang giúp cải thiện khả năng học hỏi của mô hình AI theo cách tương tự, hứa hẹn giúp ích cho các lĩnh vực báo chí và sản xuất phim bằng cách chuyển đổi nội dung đa phương tiện thông qua truy xuất video và âm thanh. Về dài hạn, công trình này sẽ giúp cải thiện khả năng học hỏi của AI từ môi trường thực tế- nơi hình ảnh và âm thanh gắn kết chặt chẽ. 

Các nhà nghiên cứu đã phát triển một phương pháp giúp mô hình học máy căn chỉnh dữ liệu âm thanh và hình ảnh tương ứng từ các đoạn video mà không cần đến nhãn do con người tạo ra. Họ thay đổi cách huấn luyện mô hình để nó học được cách liên kết chi tiết hơn giữa một khung hình cụ thể của video và âm thanh xảy ra tại thời điểm đó. Các nhà nghiên cứu cũng thay đổi kiến trúc mô hình để giúp hệ thống cân bằng giữa hai mục tiêu học tập khác nhau, từ đó cải thiện hiệu suất.

“Chúng tôi đang xây dựng hệ thống AI có thể xử lý thông tin thực tế giống như con người, tức là tiếp nhận đồng thời thông tin cả về âm thanh và hình ảnh rồi xử lý mượt mà cả hai dạng dữ liệu này. Trong tương lai, việc tích hợp công nghệ nghe – nhìn này vào các công cụ hằng ngày, như các mô hình ngôn ngữ lớn, có thể mở ra rất nhiều ứng dụng mới,” Andrew Rouditchenko, nghiên cứu sinh tại MIT, đồng tác giả của nghiên cứu cho biết.

Giải pháp mới được phát triển dựa trên một mô hình nhóm nghiên cứu đã xây dựng trước đây, có tên là CAV-MAE. Họ đã cung cấp cho mô hình các đoạn video không có nhãn, mô hình sẽ mã hóa dữ liệu hình ảnh và âm thanh thành các biểu diễn gọi là token. Bằng cách sử dụng âm thanh tự nhiên từ đoạn ghi hình, mô hình tự động học cách ánh xạ các cặp token âm thanh và hình ảnh tương ứng lại gần nhau trong không gian biểu diễn nội bộ. Các nhà nghiên cứu nhận thấy, việc đặt ra hai mục tiêu giúp cân bằng quá trình học của mô hình, từ đó, CAV-MAE hiểu được mối liên kết giữa dữ liệu âm thanh và hình ảnh, đồng thời cải thiện khả năng truy xuất các đoạn video phù hợp với yêu cầu của người dùng. Tuy nhiên, CAV-MAE lại xử lý âm thanh và hình ảnh như những đơn vị giống nhau, nên đoạn video dài 10 giây và âm thanh tiếng cửa đóng chỉ kéo dài 1 giây vẫn được ánh xạ chung.

Trong mô hình cải tiến CAV-MAE Sync, các nhà nghiên cứu chia âm thanh thành các cửa sổ nhỏ trước khi mô hình tính toán dữ liệu biểu diễn, do đó tạo ra các biểu diễn riêng biệt cho từng phần nhỏ của âm thanh. Trong quá trình huấn luyện, mô hình sẽ học cách liên kết một khung hình video với phần âm thanh xảy ra đúng tại khung hình đó. “Qua đó, mô hình học được mối liên kết chi tiết hơn, giúp cải thiện hiệu suất khi chúng tôi tổng hợp thông tin về sau” Araujo cho biết.

Mô hình kết hợp giữa một mục tiêu đối chiếu nhằm học cách liên kết dữ liệu âm thanh và hình ảnh tương tự, và một mục tiêu tái tạo nhằm khôi phục dữ liệu âm thanh, hình ảnh cụ thể dựa trên yêu cầu của người dùng.

Trong CAV-MAE Sync, các nhà nghiên cứu đã đưa ra hai loại biểu diễn dữ liệu, hay còn gọi là mã thông báo (token), bao gồm các “mã thông báo toàn cầu” (global token) chuyên biệt giúp đạt được mục tiêu học đối chiếu và các “mã thông báo đăng ký” (register token) chuyên biệt giúp mô hình tập trung vào các chi tiết quan trọng cho mục tiêu tái tạo.

Araujo nói thêm: “Về cơ bản, chúng tôi thêm không gian linh hoạt hơn cho mô hình để chúng có thể thực hiện mỗi nhiệm vụ độc lập hơn, mang lại lợi ích cho hiệu suất tổng thể.”

Dù các nhà nghiên cứu tin rằng những cải tiến này sẽ nâng cao hiệu suất của CAV-MAE Sync, vẫn cần có các chiến lược để định hướng mô hình theo cách mà họ mong muốn. Rouditchenko nói: “Vì có nhiều mục tiêu nên chúng ta cần một mô hình phù hợp cho từng mục tiêu riêng lẻ, song cũng cần tìm cách kết hợp chúng một cách hiệu quả”.□

Diễm Quỳnh lược dịch 

Nguồn: https://news.mit.edu/2025/ai-learns-how-vision-and-sound-are-connected-without-human-intervention-0522 

Bài đăng Tia Sáng số 11/2025

Tác giả

(Visited 26 times, 26 visits today)