Dữ liệu cung cấp cho cuộc thi là một phần kết quả trong các dự án hợp tác năm 2021 giữa Trường Công nghệ Thông tin và Truyền thông (SOICT), ĐH Bách khoa Hà Nội và Tập đoàn Naver, Hàn Quốc. Đây cũng là hai đơn vị tổ chức thường niên cuộc thi này.
Cuộc thi gồm ba tác vụ: Trích xuất ý định và slot trong câu văn tiếng Việt (Vietnamese Intent Detection and Slot Tagging); Khoanh vùng cơ thể và Nhận diện cử chỉ động (Body Segmentation and Gesture Recognition); Phát hiện và nhận diện văn bản tiếng Việt trong ảnh khung cảnh (Vietnamese Scene Text Detection and Recognition).
![]() |
Thuyết trình tại vòng chung kết Hackathon BKAI-NAVER Challenge 2022 ngày 22/5. Ảnh BKAI |
Trong 80 đội tham dự đến từ các trường đại học trên cả nước, 20 đội đạt kết quả tốt nhất được chọn vào vòng chung kết diễn ra vào ngày 21 và 22/5. Tại đây, các đội đã có 24 giờ thử thách, nộp báo cáo kỹ thuật, source code và thuyết trình để Ban tổ chức đánh giá tính đúng đắn của giải pháp và công bố kết quả cuối cùng.
Kết quả, Ban giám khảo đã chọn ra được đội Nhất – Nhì – Ba và Khuyến khích cho mỗi tác vụ. Hầu hết giải đều thuộc về các nhóm đến từ ĐH Bách khoa Hà Nội và ĐH Công nghệ Thông tin (ĐH Quốc gia TPHCM).
![]() |
3 đội đoạt giải nhất của 3 tác vụ. Ảnh: BKAI |
TS Nguyễn Phi Lê - đại diện Ban giám khảo - cho biết, các đội đã mang đến cuộc thi rất nhiều giải pháp sáng tạo, sử dụng các kỹ thuật hiện đại như Transformer, Graph Neural Network, Semi-supervised learning, Self-learning. Đây là năm thứ 3 trường tổ chức cuộc thi, nhưng là lần đầu tiên có nhiều đội "thực chiến" giỏi đến vậy.
Giải thích về ý nghĩa của các tác vụ và điểm nổi trội của ba đội giành giải nhất ở mỗi tác vụ, đại diện Ban tổ chức cho biết:
Tác vụ hiểu ngôn ngữ tự nhiên tiếng Việt là một thành phần quan trọng trong các hệ thống hội thoại giữa người và máy (như trợ lý ảo, loa thông minh...). Tác vụ này gồm 2 bài toán chính là phát hiện ý định người dùng và nhận diện các thông tin quan trọng trong câu nói để hệ thống có thể phản hồi lại một cách đúng đắn. Giải pháp giành giải nhất trong Challenge lần này đã dùng SBERT để có thể biểu diễn ngữ nghĩa của câu nói tốt hơn thay vì các mô hình biểu diễn từ thông thường. Nhóm đã sử dụng phương pháp học tương phản dựa trên ý nghĩa của các ý định để cải thiện độ chính xác trong việc dự đoán ý định trong câu nói của người dùng.
Việc nhận dạng cử chỉ tay có ý nghĩa hỗ trợ phát triển các hệ thống giao tiếp người - máy, đặc biệt là với các thiết bị nhỏ gọn không thể điều khiển bằng cách sử dụng bàn phím và chuột như thông thường. Tác vụ này đưa ra bộ dữ liệu để giải quyết hai bài toán là khoanh vùng cơ thể và nhận dạng cử chỉ tay. Tác vụ này yêu cầu kết quả đầu ra của bài toán phân vùng cơ thể phải được sử dụng làm đầu vào cho bài toán nhận diện cử chỉ tay. Đội đạt giải nhất đã sử dụng phương pháp học bán giám sát với bài toán khoanh vùng cơ thể. Đối với việc phát hiện cử chỉ tay, giải pháp của nhóm giải nhất đã kết hợp giữa đầu ra của bài toán khoanh vùng cơ thể và keypoint nhằm giúp mô hình nhận dạng đạt hiệu quả tốt hơn.
Bài toán định vị và xác định chữ viết được áp dụng rộng rãi trong nhiều ứng dụng thực tế như số hóa các văn bản lưu trữ hoặc tự động trích xuất và phân tích thông tin từ hình ảnh. Điểm đặc biệt của nhóm đoạt giải nhất trong tác vụ này là các em không chỉ dừng lại ở việc sử dụng các mô hình có sẵn mà đã đi sâu phân tích điểm mạnh, điểm yếu của các mô hình khi áp dụng vào bài toán nhận diện tiếng Việt. Từ đó, nhóm đã đề xuất phương pháp sử dụng kết hợp hai mô hình định vị chữ viết, giúp giải quyết vấn đề về sự nhạy cảm của mô hình đối với kích thước của ảnh đầu vào. Đồng thời, nhóm cũng đưa ra một hàm mất mát mới, nhằm tăng độ chính xác của mô hình định vị chữ viết. Đối với tác vụ nhận diện chữ viết, nhóm D2C đã sử dụng nhiều phương pháp sinh dữ liệu nhân tạo khác nhau, tạo ra một bộ dữ liệu nhân tạo rất lớn, với độ đa dạng cao, giúp các mô hình có khả năng học tổng quát.
Thái Thanh

