AI có thể hiểu được mối quan hệ không gian giữa các vật thể

Các nhà nghiên cứu tại Phòng thí nghiệm Khoa học máy tính và Trí tuệ nhân tạo (CSAIL) của MIT đang phát triển một mô hình trí tuệ nhân tạo có thể nhận biết được mối quan hệ về vị trí không gian giữa các vật thể, tương tự như con người.

Khi con người nhìn vào khung cảnh, họ thấy các vật thể và mối quan hệ giữa chúng: trên bàn có một chiếc máy tính đặt ở bên trái điện thoại di động, và chiếc điện thoại nằm trước màn hình máy tính. Tuy nhiên, nhiều mô hình học sâu khó có thể “nhìn” thế giới theo cách này vì chúng không hiểu mối quan hệ đan xen giữa các vật thể riêng lẻ. Nếu không hiểu được mối quan hệ đó, một con robot giúp việc trong bếp sẽ gặp khó khăn khi thực hiện mệnh lệnh “nhặt thìa khuấy bột ở bên trái bếp lò và đặt nó lên thớt”.

Để giải quyết vấn đề này, các nhà nghiên cứu ở MIT đã phát triển một mô hình AI có thể hình dung từng mối quan hệ riêng rẽ, sau đó kết hợp chúng lại với nhau để mô tả bối cảnh tổng thể. Điều này cho phép mô hình tạo ra hình ảnh chính xác hơn từ một đoạn văn bản mô tả, ngay cả khi mô tả đó gồm nhiều đối tượng được sắp xếp trong các mối quan hệ khác nhau. Yilun Du, nghiên cứu sinh sau tiến sĩ tại Phòng thí nghiệm CSAIL và là đồng tác giả của bài báo nói rằng: “Khi nhìn vào một cái bàn, tôi không thể nói rằng có một vật thể ở vị trí tọa độ XYZ. Tâm trí của chúng ta không hoạt động như vậy. Để hiểu một khung cảnh, chúng ta hiểu nó dựa trên mối quan hệ giữa các đối tượng trong đó. Chúng tôi nghĩ rằng bằng cách xây dựng một hệ thống có thể hiểu được mối quan hệ giữa các đối tượng, chúng tôi có thể dùng nó để thao tác và thay đổi môi trường một cách hiệu quả hơn”.

Hệ thống của họ sẽ chia tách câu văn thành các mảnh nhỏ (“bàn gỗ ở bên trái ghế xanh” và “ghế đỏ ở bên phải ghế xanh”) và mô hình hóa từng phần riêng biệt, sau đó thông qua một quy trình tối ưu để kết hợp chúng lại, tạo ra hình ảnh của khung cảnh. Kỹ thuật học máy này gọi là mô hình dựa trên năng lượng (EBM), cho phép sử dụng một mô hình EBM để mã hóa từng mô tả quan hệ, sau đó biên soạn chúng lại với nhau theo cách suy luận ra tất cả đối tượng và quan hệ. “Các hệ thống khác sẽ dùng tất cả mối quan hệ và tạo ra từng hình ảnh một từ đoạn mô tả (one-shot learning). Nhưng cách tiếp cận này sẽ thất bại khi thấy một mô tả đầu vào khác với dữ liệu đào tạo của nó, chẳng hạn như một mô tả có nhiều mối quan hệ hơn. Khi chúng tôi biên soạn các mô hình nhỏ riêng biệt này lại với nhau, chúng tôi có thể mô hình hóa nhiều mối quan hệ và thích nghi với những cách kết hợp mới lạ”, Yilun Du nhận xét. 

Hệ thống này cũng hoạt động theo hướng ngược lại – nếu ta cho nó một tấm hình, nó có thể tìm thấy đoạn mô tả văn bản phù hợp với mối quan hệ của những đối tượng trong đó. Ngoài ra, mô hình cũng có thể dùng để chỉnh sửa hình ảnh nhờ việc sắp xếp lại đối tượng trong khung cảnh để phù hợp với mô tả mới. 

Các nhà nghiên cứu đã đưa ra những bức ảnh mà mô hình chưa từng thấy cùng nhiều đoạn mô tả khác nhau cho mỗi ảnh, và mô hình có thể xác định đúng mô tả phù hợp nhất với từng mối quan hệ trong ảnh. Khi họ đưa ra cho mô hình AI này hai bản mô tả cùng một hình ảnh nhưng theo những cách khác nhau, nó cũng có thể hiểu rằng những mô tả đó là tương đương. 

Mặc dù những kết quả ban đầu này rất đáng khích lệ, các nhà nghiên cứu muốn xem mô hình của họ hoạt động như thế nào trên các hình ảnh phức tạp hơn trong thế giới thực với thông tin nền nhiễu và có những vật thể che khuất nhau. Họ cũng quan tâm đến việc kết hợp mô hình của mình vào các hệ thống robot để robot có thể suy ra mối quan hệ giữa các đối tượng từ video, từ đó áp dụng kiến thức này để thao tác vật thể trên thực tế. Nghiên cứu này được trình bày tại Hội nghị về hệ thống xử lý thông tin mạng thần kinh nhân tạo (NeurIPS) vào tháng 12/2021.□

Trang Linh lược dịch
Nguồn: https://techxplore.com/news/2021-11-artificial-intelligence-relationships.html 

Tác giả