Trí tuệ nhân tạo chuyển tín hiệu não thành lời nói

Trong tương lai, công nghệ này có thể giúp người câm điếc giao tiếp dễ dàng hơn.


Một thuật toán học sâu được đưa vào bộ giải mã để biến đổi tín hiệu não thành các chuyển động ước tính của hệ thống cấu âm. Nguồn: Nature

Trong nỗ lực mang lại giọng nói cho những người không thể nói được, các nhà thần kinh học đã thiết kế một thiết bị có thể biến đổi tín hiệu não thành lời nói. Dù công nghệ này hiện có thể tạo ra các câu nói tương đối dễ hiểu song vẫn chưa đủ chính xác để có thể sử dụng rộng rãi. Các nhà sáng chế đã mô tả thiết bị giải mã lời nói của họ trong một nghiên cứu được xuất bản vào ngày 24/4/2019 trên tạp chí Nature.

Trước đây, các nhà khoa học đã dùng trí thông minh nhân tạo để “dịch” các từ một âm tiết từ hoạt động của não, theo Chethan Pandarinath, một nhà thần kinh học tại Đại học Emory ở Atlanta, Georgia. “Việc nâng cao hiệu suất chuyển đổi từ các từ đơn âm tiết thành câu nói là một bước nhảy vọt về kỹ thuật và khiến phát hiện mới này trở nên ấn tượng”, anh nói.
Với công nghệ hiện hành, người mất khả năng nói phải thực hiện các chuyển động nhỏ để điều khiển một con trỏ chọn các chữ cái hoặc từ trên màn hình. Ví dụ nhà vật lý người Anh Stephen Hawking, người mắc ALS, đã sử dụng một thiết bị tạo giọng nói được điều khiển bằng cơ má. Các thiết bị này chuyển đổi ngôn ngữ rất chậm bởi những người sử dụng phải gõ từng chữ một, khoảng mười từ mỗi phút trong khi lời nói tự nhiên trung bình là 150 từ mỗi phút, Edward Chang, bác sĩ phẫu thuật thần kinh tại Đại học California, San Francisco và là tác giả chính của nghiên cứu, cho biết. 
Vì vậy, Chang và nhóm nghiên cứu của anh đã quyết định mô hình hóa hệ thống cấu âm khi xây dựng bộ giải mã của họ. Theo dõi năm người được cấy điện cực trên bề mặt não, họ đã ghi lại hoạt động não khi họ đọc to hàng trăm câu, sau đó kết hợp các bản ghi này với dữ liệu xác định xem chuyển động của lưỡi, môi, hàm và thanh quản tạo ra âm thanh như thế nào. Với các dữ liệu này, nhóm nghiên cứu đã “huấn luyện” một thuật toán học sâu và đưa nó vào bộ giải mã biến đổi tín hiệu não thành các chuyển động ước tính của hệ thống cấu âm, tổng hợp những chuyển động này thành lời nói. Những người nghe thử 101 câu tổng hợp có thể hiểu trung bình 70% số từ, Chang nói.
Trong một thí nghiệm khác, các nhà nghiên cứu yêu cầu một người tham gia đọc không thành lời các câu (di chuyển miệng mà không tạo ra âm thanh). Các câu được tổng hợp từ bài kiểm tra này có chất lượng thấp hơn so với những câu được tạo ra từ lời nói có thể nghe được nhưng kết quả vẫn rất đáng khích lệ.
Bằng cách ánh xạ hoạt động của não thành các chuyển động của hệ thống cấu âm và tổng hợp các chuyển động thành âm thanh, tiếng nói được tạo ra dễ hiểu hơn so với tiếng nói tạo ra bằng cách ánh xạ hoạt động của não trực tiếp thành âm thanh, Stephanie Riès, nhà thần kinh học tại Đại học bang San Diego, California, nói.
Nhưng không rõ bộ giải mã lời nói mới có hoạt động tốt nếu mọi người chỉ nghĩ mà không nói ra thành lời hay không, Amy Orsborn, một kỹ sư thần kinh tại Đại học Washington ở Seattle, nghi vấn. “Nghiên cứu cho thấy, bộ giải mã vẫn hoạt động khi người dùng chuyển động miệng mà không tạo ra âm thanh. Tuy nhiên bộ giải mã có làm việc không nếu người dùng không thể di chuyển miệng của họ?”, cô nêu tình huống.
Marc Slutzky, một nhà thần kinh học tại Đại học Tây Bắc ở Chicago, Illinois, đồng ý với ý kiến này và cho rằng, bộ giải mã còn nhiều điểm cần cải thiện. Ông lưu ý, trong các thử nghiệm, người nghe thử đã “nghe” lời nói tổng hợp bằng cách chọn ra các từ trong một loạt các lựa chọn; và khi số lượng lựa chọn tăng lên, mọi người gặp khó khăn hơn trong việc hiểu lời nói của bộ giải mã.
Nghiên cứu này “là một bước thực sự quan trọng, nhưng vẫn còn một chặng đường dài trước khi lời nói tổng hợp bằng bộ giải mã trở nên dễ hiểu hơn”, Slutzky đánh giá.□
 
Hoàng Nam dịch
Nguồn: https://www.nature.com/articles/d41586-019-01328-x?fbclid=IwAR0BJBxj2CTjfVWKg-Lio8Ss5zLRmp2zhIJPH1osgd6OkONXA0PKcYUyylQ

Tác giả