DeepMind: The Podcast | Ep. 1: AI and neuroscience - The virtuous circle
Trí thông minh nhân tạo chỉ làm cho giọng nói của robot nghe có vẻ thực tế hơn rất nhiều.
DeepMind, trước đây đã chứng minh sức mạnh của A.I. bằng cách đánh bại một người chơi ở Go vào tháng 3 và cắt giảm hóa đơn điện trong nửa tháng 7, giờ đây tập trung vào tổng hợp giọng nói.
Nhóm nghiên cứu A.I, một phần của công ty mẹ Google, đã tiết lộ sáng nay rằng họ đã tạo ra một công nghệ mới có tên WaveNet có thể được sử dụng để tạo ra lời nói, âm nhạc và các âm thanh khác chính xác hơn trước.
DeepMind giải thích rằng nhiều phương pháp tổng hợp giọng nói hiện có dựa trên cơ sở dữ liệu rất lớn về các đoạn giọng nói ngắn được ghi lại từ một loa duy nhất và sau đó kết hợp lại để tạo thành các cách phát âm hoàn chỉnh. Mặt khác, Wave WaveNet sử dụng dạng sóng thô của tín hiệu âm thanh Để tạo ra tiếng nói và âm thanh trung thực hơn.
Điều này có nghĩa là WaveNet đang làm việc với các âm thanh riêng lẻ được tạo ra khi con người nói thay vì sử dụng các âm tiết hoàn chỉnh hoặc toàn bộ các từ. Những âm thanh đó sau đó được chạy thông qua một quy trình tính toán đắt đỏ trên máy tính mà DeepMind đã tìm thấy, rất cần thiết để tạo ra âm thanh, âm thanh thực tế, phức tạp với các máy.
Kết quả của tất cả những công việc làm thêm đó là sự cải thiện 50 phần trăm cho bài phát biểu tổng hợp bằng tiếng Anh và tiếng Hoa của Hoa Kỳ. Ở đây, một ví dụ về lời nói được tạo ra bằng cách sử dụng văn bản thành giọng nói tham số, phổ biến hiện nay, được DeepMind sử dụng để chứng minh phương pháp tổng hợp giọng nói này còn thiếu như thế nào:
Và ở đây, một ví dụ về câu tương tự được tạo bởi WaveNet:
Khi các công ty tiếp tục công việc của họ trên các giao diện ngôn ngữ tự nhiên, việc đưa ra các phản hồi nghe có vẻ thực tế hơn sẽ ngày càng trở nên quan trọng. WaveNet có thể giúp giải quyết vấn đề đó.