Mang ngôn ngữ ký hiệu vào cuộc sống thông qua AI 

Với hàng triệu người khiếm thính trên khắp thế giới, rào cản giao tiếp có thể khiến sinh hoạt thường ngày trở nên khó khăn hơn. Các giải pháp truyền thống như dựa vào phiên dịch viên ngôn ngữ ký hiệu thường đắt đỏ, khan hiếm, và không chủ động do phải lệ thuộc người khác. Vì vậy mà trong thời đại kỹ thuật số hiện nay, nhu cầu về các công nghệ hỗ trợ, giải pháp giao tiếp đang ngày càng tăng. 


Ngôn ngữ ký hiệu Mỹ (ASL) là một trong những ngôn ngữ ký hiệu phổ biến nhất, gồm các cử chỉ tay riêng biệt đại diện cho các chữ cái, từ và cụm từ. Các hệ thống nhận dạng ngôn ngữ ASL hiện có thường gặp khó khăn trong bắt kịp tốc độ của người ra hiệu và nhận dạng chính xác ký hiệu trong các môi trường khác nhau 

Một thách thức lớn trong hệ thống ASL là phân biệt các cử chỉ trông giống nhau như “A” và “T” hoặc “M” và “N”. Ngoài ra, chất lượng bộ dữ liệu đầu vào cũng là trở ngại đáng kể, do độ phân giải hình ảnh kém, mờ do chuyển động, ánh sáng không nhất quán và sự khác biệt về kích thước tay, màu da và nền. Những yếu tố này gây ra  sai lệch và giảm khả năng khái quát hóa của mô hình trên những người dùng và môi trường khác nhau.

Để giải quyết những thách thức này, các nhà nghiên cứu từ Trường Kỹ thuật và Khoa học Máy tính tại Đại học Florida Atlantic (FAU) đã phát triển một hệ thống phiên dịch ASL theo thời gian thực, kết hợp ưu điểm của hai hệ thống đó là khả năng nhận dạng của YOLOv11 với khả năng theo dõi tay chính xác của MediaPipe. Hệ thống mới có thể nhận dạng chính xác các chữ cái trong bảng chữ cái ASL theo thời gian thực, đồng thời sử dụng học sâu theo dõi các điểm chính trên tay để dịch các cử chỉ ASL thành văn bản, cho phép người dùng đánh vần tên, địa điểm và hơn thế nữa với độ chính xác đáng kể.

Về cơ bản, một webcam sẽ đóng vai trò là cảm biến, thu thập dữ liệu trực quan, chuyển đổi thành các khung hình kỹ thuật số để phân tích cử chỉ. MediaPipe xác định 21 điểm chính trên mỗi bàn tay để tạo bản đồ xương, trong khi YOLOv11 sử dụng các điểm này để phát hiện và phân loại các chữ cái ASL với độ chính xác cao.

TS. Bader Alsharif tại Khoa Kỹ thuật Điện và Khoa học Máy tính FAU- tác giả thứ nhất của nghiên cứu, cho biết: “Điểm đặc biệt của hệ thống này là toàn bộ quy trình, từ việc ghi lại cử chỉ đến phân loại, đều liền mạch trong thời gian thực, bất kể điều kiện nền hay ánh sáng. Công nghệ sử dụng ở đây đều có sẵn trên thị trường, càng nhấn mạnh tiềm năng ứng dụng thực tế của hệ thống.” 

Nghiên cứu công bố trên tạp chí Sensors cho thấy hệ thống đã đạt độ chính xác 98,2% với độ trễ tối thiểu, chứng minh rằng đây là giải pháp lý tưởng để ứng dụng trong các trường hợp đòi hỏi hiệu suất lớn và đáng tin cậy, như xử lý video trực tiếp và các công nghệ tương tác.

Bộ dữ liệu mà nhóm nghiên cứu xây dựng dựa trên bảng chữ cái ASL gồm 130.000 hình ảnh với nhiều cử chỉ tay khác nhau, chụp trong các điều kiện khác nhau như sáng, tối, đổ bóng, trong nhà, ngoài trời… để giúp các mô hình khái quát hóa tốt hơn. 

Mỗi hình ảnh được chú thích cẩn thận với 21 điểm chính, làm nổi bật các cấu trúc tay thiết yếu như đầu ngón tay, đốt ngón tay và cổ tay. Các chú thích này cung cấp bản đồ xương của bàn tay, cho phép các mô hình phân biệt giữa các cử chỉ tương tự với độ chính xác vượt trội.

TS. Stella Batalama, trưởng khoa Trường Kỹ thuật và Khoa học Máy tính tại FAU nhận xét: “Nghiên cứu này làm nổi vai trò của công nghệ hỗ trợ dựa trên AI trong việc trao quyền cho cộng đồng người khiếm thính. Nó cho phép những người khiếm thính tương tác liền mạch hơn với thế giới xung quanh, giới thiệu bản thân, tham gia vào các cuộc trò chuyện hằng ngày…. Công nghệ này không chỉ tăng cường khả năng tiếp cận mà còn hỗ trợ hòa nhập xã hội lớn hơn, giúp tạo ra một cộng đồng kết nối và đồng cảm hơn cho tất cả mọi người.”□

Diễm Quỳnh lược dịch 

Nguồn: https://techxplore.com/news/2025-04-language-life-ai-real.html

Bài đăng Tia Sáng số 8/2025

Tác giả

(Visited 26 times, 26 visits today)