Thuật toán AI ứng phó nguy cơ mất khả năng nói của con người

Đại học Northeastern ở Boston và công ty VocaliD đã lập một trung tâm tiên phong về bảo tồn và tái tạo giọng nói của con người bằng trí thông minh nhân tạo. Các nhà nghiên cứu hy vọng trung tâm này sẽ thay đổi cuộc sống của những người đang phải đối mặt với nguy cơ mất khả năng nói.

Các nhà nghiên cứu cho biết dự án mạo hiểm này có thể trao cho những người mắc bệnh từ ung thư vòm họng đến các bệnh tế bào thần kinh vận động cơ hội phát ra giọng nói của mình ngay cả khi không còn khả năng tự nói được nữa.

Một trong những người tiên phong trong lĩnh vực này, giáo sư Rupal Patel, nhà sáng lập và giám đốc điều hành của VocaliD, cho biết, mặc dù công ty đã cung cấp cho các cá nhân phương án ghi âm giọng nói tại nhà riêng của họ, nhưng trên thực tế, nhiều người lại thiếu thiết bị ghi âm chất lượng cao hoặc những bản ghi âm họ tự thu bị lẫn rất nhiều tạp âm. Patel nói thêm cần phải hỗ trợ nhiều hơn cho những người yêu cầu các dịch vụ này và đảm bảo người bệnh nhận thức được rằng họ nên tiến hành việc lưu trữ giọng nói của mình càng sớm càng tốt. “Thông thường, họ sẽ đến với chúng tôi vào phút cuối,” bà nói. “Họ không có thời gian để lưu trữ giọng nói của mình, thêm vào đó họ còn bị căn bệnh và những lần phẫu thuật đau đớn ảnh hưởng”.

Do đó, công ty đã hợp tác với Đại học Northeastern – nơi Patel đang tạm dừng công việc giảng dạy của mình – để đưa công nghệ này đến với cộng đồng. Kết quả cuối cùng là Trung tâm Bảo tồn Giọng nói ra đời, một nơi tạo điều kiện cho mọi người, thường là có nguy cơ bị mất giọng nói, có thể ghi âm lại giọng nói của mình – một phần của dự án “bảo tồn”.

Thay vì cắt nhỏ từng từ rồi xâu chuỗi chúng lại với nhau, công nghệ tái tạo giọng nói sử dụng các thuật toán học máy để phân tích các giọng nói mà trung tâm có do những người tham gia cung cấp dưới dạng các bài thơ, truyện ngắn hoặc bài phát biểu từ một loạt các chủ đề mà họ ghi lại trong một buồng thu âm đặc biệt. “Những gì chúng tôi cần họ làm là ghi âm lại bài phát biểu dài khoảng 2 đến 3 tiếng. Từ những bản ghi âm đó, chúng tôi có thể xây dựng một bộ công cụ giọng nói do AI tạo ra mà về cơ bản, âm thanh phát ra hệt như của người,” Patel nói. Thực tế, nó có thể nói ra những từ giống hệt của người dùng, dù những từ ấy trước đó vẫn chưa từng được ghi âm.

Khi giọng nói kỹ thuật số được cài đặt trên ứng dụng đi kèm, cho dù trên điện thoại hoặc các loại thiết bị đặc biệt, người dùng đều có thể nhập những gì họ muốn nói và âm thanh sẽ phát ra các câu bằng chính giọng nói của người dùng. “Với những người mắc bệnh ung thư, họ vẫn có thể điều khiển đôi tay của mình và vì vậy vẫn có thể giao tiếp – nhưng họ muốn tự mình giao tiếp bằng giọng nói,” ông Pat Patel cho biết.

Dự án “bảo tồn” này, cô nói thêm, khác với các loại dịch vụ khác, mọi người còn có thể quyên góp các bản ghi âm của chính mình để giúp những người không còn nói được tạo ra một giọng nói mới cho riêng họ.

Công nghệ này đang được cải thiện nhanh chóng – âm thanh phát ra nghe ngày càng giống tiếng người hơn, và nhóm nghiên cứu đã bắt đầu phát triển các bộ lọc để cung cấp cho người dùng nhiều sự lựa chọn hơn trong việc diễn đạt các cụm từ.  

Patel cho biết nhóm nghiên cứu cũng có thể “già hóa” giọng nói của một cá nhân cụ thể, nhưng cũng chỉ đến một mốc giới hạn nào đó. Nhóm nghiên cứu vẫn chưa thể biến giọng nói của một đứa trẻ thành giọng nói của một thiếu niên hoặc người đã trưởng thành, mặc dù họ đã có thể biến giọng nói của đứa trẻ đó thành giọng nói của chính chúng trong tương lai gần.

Mặc dù dịch vụ ghi âm thì miễn phí, nhưng để có được phiên bản giọng nói do AI tạo ra thì người dùng sẽ phải tốn 1.499 USD (tương đương 1.360 bảng). Tuy nhiên, trung tâm cho biết họ sẽ không thu phí khách hàng trong năm đầu tiên. □

Anh Thư dịch

Nguồn: https://www.theguardian.com/technology/2019/nov/09/centre-tackle-speech-loss-preserving-voices-artificial-intelligence

Tác giả