Dùng AI để đếm số người trong tranh
Bạn có thể đếm được có bao nhiêu người trong bức họa nổi tiếng được mệnh danh là vẽ cả nghìn người không?

Truyền thuyết phổ biến nhất về vị thánh tử vì đạo Ursula và 1000 tín đồ đi theo bà đã khiến người ta tò mò trong nhiều thế kỷ. Ursula là ai? Bà có thực tồn tại trong lịch sử? Phần lớn các nhà sử học đều cho rằng Ursula có thể sống vào thời kỳ 300 – 600 sau Công nguyên, người gốc La Mã- Anh. Là công chúa con vua Dionotus cai quản vùng Dumnoia, nơi ngày nay gồm Dorset, Devon và Somerset, bà được vua cha gả cho Conan Meriadoc, người cai quản vùng Armorica, sau là Công quốc Bretagne thuộc Tây Bắc nước Pháp ngày nay. Thật không may, khi Ursula và đoàn tùy tùng 1000 trinh nữ đi theo bà qua nơi mà ngày nay là thành phố Cologne, Đức, họ đã bị tàn sát hoặc tự sát để khỏi rơi vào tay những kẻ xâm lược Hung – một sắc dân du mục từ Trung Á, có lẽ ban đầu sinh sống trong khu vực từ ven hồ Issyk Kul (ngày nay thuộc Kyrgyzstan) tới Ulan Bator (thủ đô của Mông Cổ ngày nay), đã càn quét nhiều quốc gia châu Âu vào thế kỷ thứ 4.
Bất chấp có nhiều tranh cãi về tính xác thực của truyền thuyết, đặc biệt giữa các sử gia về tôn giáo, nhưng Ursula đã được phong thánh và nhà thờ mang tên bà đã được Clematius, một thành viên thuộc Viện nguyên lão La Mã, xây dựng ở Cologne vào năm 400. Việc thiếu bằng chứng xác thực xung quanh câu chuyện về Ursula và đoàn tùy tùng của bà khiến bà bị loại khỏi Lịch các thành Công giáo khi danh mục này được sửa đổi vào năm 1969. Tuy nhiên, không thể phủ nhận là truyền thuyết bi thảm về bà đã trở thành một chủ đề sáng tác của rất nhiều họa sĩ. Bảo tàng Prado ở Madrid, Tây Ban Nha, có bốn bức họa.
Sherpa.ai đã phát triển một hệ thống AI có khả năng nhận dạng đếm các vật thể khác nhau (người, ngựa, bức vẽ, thuyền buồm, cây cối…), có thể ứng dụng được ngay trên các tác phẩm được lựa chọn từ bộ sưu tập của Prado.
Một trong những bức họa nổi tiếng đó là St. Ursula With the 11,000 Virgins, được sáng tác vào khoảng năm 1490. Bức họa này được nổi bật đến nỗi người họa sĩ vô danh vẽ nó đã được mang danh “Bậc thầy của 11.000 trinh nữ”. Bức họa này được treo trang trọng ở bảo tàng mỹ thuật Prado ở Madrid và nếu ai đó cố gắng lại gần nhất bức tranh có thể, họ có đếm được chính xác có bao nhiêu người trong bức họa này không?
Điều này kích thích sự tò mò và háo hức của Prado đến nỗi họ tin là có thể đem lại một góc nhìn mới mẻ, một khía cạnh thú vị để thu hút hơn nữa sự quan tâm của công chúng với các tác phẩm nghệ thuật. Họ thậm chí đã thử mở một cuộc khảo sát, trong dó đề nghị mọi người hỗ trợ họ trong việc xác định có bao nhiêu người trong St. Ursula With the 11,000 Virgins, hay Perspective View of a Roman Amphitheatre của Viviano Codazzi. Cuộc khảo sát nhận về nhiều ý kiến khác nhau nhưng tựu trung lại là việc đếm chính xác từng người trong những bức họa kiểu này dường như là không thể, thậm chí ác mộng.
Khai thác tính năng vô tận của AI
Trên thực tế, đây là một nhiệm vụ vô cùng khó khăn với mắt người. Nguyên nhân là bởi bộ não của chúng ta thường chỉ thành thạo, nhanh chóng và chính xác trong việc nhận biết số lượng vật thể trong một nhóm nhỏ mà không cần phải đếm. Đây là một kỹ năng cơ bản trong việc cảm nhận được số lượng và phát triển tính toán, đặc biệt ở trẻ em. Với những nhóm gồm năm vật thể hoặc nhiều hơn, chúng ta bắt đầu phải chú tâm đến việc đếm rồi.

Khi người không thể thì cần đến máy, đến AI. Đó là điểm khởi đầu của dự án “Counting the Prado” do Bảo tàng Mỹ thuật Prado khởi xướng. Khi mở dự án này, họ muốn sử dụng A.I. để đếm xem có bao nhiêu người và vật thể có trong những bức họa nổi tiếng của mình, một cách khám phá nghệ thuật đầy thú vị bằng các ứng dụng AI.
Dĩ nhiên AI là một ứng cử viên sáng giá, bởi trước dự án “Counting the Prado”, nhiều bảo tàng cũng đã nhờ cậy AI trong việc hỗ trợ phân biệt tranh thật, tranh giả, tái tạo, phục hồi tranh, hoặc đi tìm những sự tương đồng giữa các tác phẩm của nhiều nền văn hóa khác nhau… Khả năng của AI dường như vô tận song việc thiết kế những thuật toán như thế nào đó để thực hiện nhiệm vụ đếm cũng không dễ. Do đó, bảo tàng Prado đã hợp tác với Sherpa.ai, một công ty khởi nghiệp của Tây Ban Nha từng được tạp chí Fortune xếp hạng trong số 100 công ty hàng đầu về AI hàng đầu thế giới năm 2018.
Trong trường hợp này, AI sẽ không chỉ đếm mỗi St. Ursula With the 11,000 Virgins mà còn có thể chứng tỏ năng lực độc đáo của mình trên khá nhiều bức khác như The Worship of Venus của Titian, Perspective View of a Roman Amphitheatre của Viviano Codazzi, Celebration of the Ommegang in Brussels: Procession of the Guilds, Celebration of the Ommegang in Brussels: The Procession of Our Lady of the Sablon…
Trước lời mời thú vị của Bảo tàng Mỹ thuật Prado, Sherpa.ai đã phát triển một hệ thống AI có khả năng nhận dạng và đếm các vật thể khác nhau (người, ngựa, bức vẽ, thuyền buồm, cây cối…), có thể ứng dụng được ngay trên các tác phẩm được lựa chọn từ bộ sưu tập của Prado. Hỗ trợ các nhà phát triển AI của Sherpa.ai trong quá trình xây dựng thuật toán phân tích và đếm là việc Prado đã số hóa thành công và có một cơ sở dữ liệu liên quan đến tác giả, tác phẩm nghệ thuật, nội dung, chủ đề, thời kỳ và phong cách của các tác phẩm cũng như sự liên kết giữc các nhóm dữ liệu. Quá trình số hóa này không chỉ cho phép khách tham quan bảo tàng số đặt một số lệnh tìm kiếm, tìm hiểu thông tin và khám phá kiến thức mà còn giúp chính những người quản lý bảo tàng chú giải, sắp xếp và trình bày thông tin về các tác phẩm theo cách có ý nghĩa, ví dụ mở rộng bảng dữ liệu của tác phẩm để bao gồm tất cả thông tin có liên quan, từ nguồn gốc đến mối quan hệ của tác phẩm đó với các tác phẩm khác trong bảo tàng và mối quan hệ của tác giả với các nghệ sĩ trong bộ sưu tập. Nhờ vậy, Prado đã có thể ứng dụng được các thuật toán AI, học sâu để khai thác nhiều hơn nữa bộ sưu tập nghệ thuật của mình. Ví dụ năm 2019 bảo tàng đã sử dụng AI để triển khai chức năng đọc tăng cường các văn bản mô tả về các tác phẩm được xuất bản trên trang web thông qua công cụ Hiểu ngôn ngữ tự nhiên (NLU) để có được nhiều thông tin nền về một số tác phẩm nghệ thuật với “dòng thời gian đa lớp”, cá nhân hóa khám phá dựa trên kiến thức nền của người thưởng lãm. Năm 2023, họ hợp tác với Trung tâm Siêu máy tính Barcelona thực hiện dự án FrAI Angelico, huấn luyện AI để xem và diễn dịch các tác phẩm nghệ thuật của bảo tàng.

Mặc dù không tiết lộ quá trình xây dựng thuật toán nhưng giờ thì bảo tàng Prado có vẻ tự tin với công cụ mới. Nếu như ai đó tò mò có bao nhiêu người trong bức họa St. Ursula With the 11.000 Virgins thì có thể tự tin trả lời rằng hóa ra chỉ có 139 người mà phần lớn trong số này chỉ có thể thấy mỗi đỉnh đầu, phần tóc sẫm màu và chỏm khăn đội đầu của họ.
Vậy còn bức Viviano Codazzi, Perspective View of a Roman Amphitheatre? Bức tranh này rất nổi tiếng bởi nó là một góc nhìn về cuộc sống La Mã cổ đại, dưới bàn tay tài hoa của Viviano Codazzi, một họa sĩ vùng Bergamo lần đầu tiên được ghi nhận ở Naples vào năm 1633 – tương truyền, ông sẽ vẽ công trình kiến trúc còn cộng sự là họa sĩ Domenico Gargiulo chủ yếu vẽ người. Trong tác phẩm này, Gargiulo lấp đầy cấu trúc đấu trường La Mã bằng hàng ngàn khán giả nhỏ bé, tạo ấn tượng về quy mô rộng lớn. Trong đấu trường, nhiều cuộc chiến diễn ra đồng thời, chủ yếu là venatio (giết thú dữ). Trên thực tế thì số lượng người quả thật cũng rất đáng kể đấy: khoảng 1.827 người tới xem sự kiện venatio.
Bức có số lượng về nhì là Celebration of the Ommegang in Brussels: Procession of the Guilds, một bức họa miêu tả cuộc diễu hành thời Trung cổ được tổ chức ở Vùng đất thấp (khu vực hiện thuộc Bỉ, Hà Lan và miền Bắc nước Pháp). Họa sĩ van Alsloot và cộng sự đã phác họa trong cuộc thi bắn súng, đám rước Ommegang và lễ kỷ niệm trong khu rừng Soignes với đoàn diễu hành của 48 hội đoàn chính của Brussels, di chuyển theo đội hình ngẫu nhiên chỉ tuân theo quy ước hình ảnh, vì kiểu hàng uốn lượn này không được tuân theo trong đoàn diễu hành thực sự khi đi qua Grand-Place. Tên của ngành nghề và số lượng thợ thủ công được đăng ký trong mỗi hội đoàn được ghi lại bằng tiếng Pháp trên bức tranh. Mỗi đoàn đều có một người đưa tin đi trước, hai bên là những người cầm cờ có biểu tượng và huy hiệu của ngành nghề của họ. Về số lượng thực sự của những người tham gia diễu hành, AI đếm được 1.761 người.
Một bức họa khác, The Worship of Venus, do Titian vẽ vào năm 1518 đến năm 1519, mô tả nghi lễ thờ phụng nữ thần Tình yêu Venus. Ở tiền cảnh của bức họa là một đàn trẻ sơ sinh nghịch ngợm với các hoạt động như trèo cây, nhảy nhót, bay lượn, bắn tên, hái táo, đánh nhau, nằm la liệt xung quanh. Trông thì nhiều nhưng trong bức họa này chỉ gồm khoảng 70 người.
Mở chiều kích mới cho nghệ thuật
Vượt lên trên mối tò mò về công nghệ, dự án “Counting the Prado” của bảo tàng Prado hứa hẹn đem lại nhiều lợi ích cho người trong cuộc. Bảo tàng Prado mong muốn làm giàu bộ sưu tập của mình theo một cách sáng tạo và phổ quát hơn thông qua việc xác định các chi tiết trong một số tác phẩm nghệ thuật có đông đúc nhân vật, có sự lặp lại về chi tiết. Giờ thì những người yêu nghệ thuật có thể chiêm ngưỡng những bức tranh miêu tả các cuộc diễu hành, lễ kỷ niệm chiến thắng, lễ hội… từ một góc nhìn mới.
Để lan tỏa kết quả mới này, Bảo tàng Prado đã mở ra một cuộc truyền thông trên mạng xã hội mới dựa trên một loạt câu hỏi tập trung vào việc đếm và so sánh, mời người xem suy ngẫm và tham gia bằng cách chia sẻ câu trả lời của họ. Ví dụ, bảo tàng đặt ra những câu hỏi như: Nếu các nhân vật trong bức tranh của họa sĩ Bỉ thế kỷ 17 David Teniers the Younger, như bức Village festival, được đưa vào các bức tranh chân dung trong phòng trưng bày tranh của nhà bảo trợ nghệ thuật Áo thế kỷ 17 Archduke Leopold Wilhelm thì cuối cùng sẽ có bao nhiêu bức tranh chân dung? Hoặc, trong bản phác thảo The Meadow of San Isidro của Goya, cần phải loại bỏ bao nhiêu nhân vật để đạt được sức chứa tối đa theo đơn đặt hàng ban đầu là dành để trang trí cho Cung điện El Pardo ở Madrid?
Những dự án như “Counting the Prado” hay xây dựng công cụ Hiểu ngôn ngữ tự nhiên (NLU) mà Prado đã thực hiện không chỉ nhằm giúp chính họ nâng cao hiểu biết về bộ sưu tập của mình mà còn giúp họ tạo ra những trải nghiệm bảo tàng theo chiều kích mới. Rút cục, điều này giúp bảo tàng thu hút hơn nữa lượng người yêu nghệ thuật đến với các bộ sưu tập thông qua việc họ tương tác, kết nối với tác phẩm nghệ thuật và lịch sử nghệ thuật. Bằng cách khơi dậy sự tò mò và khuyến khích quan sát kỹ lưỡng của người thưởng lãm, những câu chuyện được lưu giữ trong các bức tranh mang tính biểu tượng sẽ đến với họ một cách trực diện – một cách nhìn về quá khứ và di sản văn hóa bằng con mắt của hiện tại.
“Nhờ những sáng kiến như vậy, chúng ta có thể phân tích các bức tranh, phát hiện ra những chi tiết hoặc thông tin mà nhiều người có thể chưa để ý để giúp họ khám phá mối quan hệ giữa các nhân vật, các chi tiết hoặc diễn giải ý nghĩa mang tính biểu tượng của chúng… Có thể đích đến sẽ có vô số ý nghĩa mới và vô số sáng kiến về văn hóa, ví dụ như triển lãm ảo với các bức tranh liên quan từ khắp nơi trên thế giới. Và trên hết, những công trình này sẽ cung cấp thêm cơ sở dữ liệu để tiếp tục nghiên cứu và hiểu di sản văn hóa của chúng ta”, Maria Cristina Marinescu, một nhà nghiên cứu từng tham gia cộng tác với bảo tàng Prado, nhận xét.□
Tô Vân tổng hợp
Nguồn: https://artdaily.com/news/180799/Prado-Museum-enlists-Artificial-Intelligence-to-uncover-hidden-details-in-masterpieces
https://news.artnet.com/art-world/counting-prado-artificial-intelligence-2629953
Bài đăng Tia Sáng số 11/2025