Chip nhận dạng tiếng Việt trên nền công nghệ FPGA

TS. Hoàng Trang cùng nhóm nghiên cứu của mình ở ĐH Bách Khoa, ĐH Quốc gia TP.HCM  mới đây đã thiết kế thành công chip nhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA, phục vụ cho người khuyết tật và các ứng dụng khác dựa trên nhận dạng, tổng hợp tiếng nói tiếng Việt.

Mục tiêu của nghiên cứu là thiết kế được chip nhận dạng tiếng nói tiếng Việt với tập tiếng nhận dạng là 20 tiếng đơn trên nền công nghệ FPGA (Field programmable Gate Array – một thiết bị bán dẫn có thể được lập trình sau khi sản xuất) dựa trên việc trích đặc trưng MFCC (Mel-Frequency Ceptrum Coefficients – phương pháp trích chọn tham số tiếng nói) và bộ nhận dạng dùng mô hình Markov ẩn (HMM) với nhiều cải tiến mới; kết quả nhận dạng hiển thị trên LCD; độ chính xác nhận dạng (trong môi trường ít nhiễu, cùng điều kiện nhiễu với khi xây dựng thiết kế và huấn luyện) tối thiểu là 80%.

Đề tài, bắt đầu được triển khai từ đầu năm 2012, đã chọn được các thông số tối ưu trong giải thuật nhận dạng tiếng nói tiếng Việt để đảm bảo cả ba yếu tố quan trọng bao gồm: độ chính xác nhận dạng, tài nguyên phần cứng, và tốc độ tính toán. Đặc biệt, đề tài đã đề xuất các kiến trúc vi mạch mới, giải thuật mới không chỉ tăng tốc độ nhận dạng trên phần cứng nhanh hơn nhiều lần so với các giải thuật thông thường, mà còn giảm tài nguyên phần cứng trong khi chỉ giảm độ chính xác nhận dạng từ 1%-3%.

Tuy các thí nghiệm cho thấy vấn đề khác nhau về giọng nói giữa các vùng miền tại việt Nam là một thách thức lớn nhưng kết quả nghiên cứu vẫn là cơ sở để hướng tới triển khai ứng dụng các thiết bị điều khiển bằng giọng nói, các thiết bị hỗ trợ cho người khuyết tật và ứng dụng trong chế tạo sản xuất ti vi nội địa giúp nâng cao vị thế cạnh tranh của hàng Việt Nam.

Trên thế giới hiện nay đã có nhiều thành công trong việc nghiên cứu xây dựng phần mềm nhận dạng tiếng nói chạy trên nền tảng vi xử lý và tài nguyên của máy tính. Tuy nhiên, để có thể chuyển các thuật toán được sử dụng trong các phần mềm nói trên sang hoạt động trên nền cấu trúc vi mạch vẫn còn là thách thức với các nhà nghiên cứu công nghệ trong lĩnh vực này.

Ở Việt Nam, vấn đề nghiên cứu thiết kế cấu trúc vi mạch nhận dạng tiếng Việt vẫn còn bỏ ngỏ mặc dù đây một hướng công nghệ cao được ưu tiên phát triển (Công nghệ nhận dạng tiếng Việt đứng thứ ba trong danh sách 46 công nghệ cao được ưu tiên đầu tư phát triển quyết định 49/2010/QĐ-TTg ngày 19/7/2010 của Thủ tướng Chính phủ).

 

Tác giả

(Visited 3 times, 1 visits today)