Giao diện não-máy tính có thể chuyển suy nghĩ thành lời nói

Tổng hợp lớp học không quạo & cô giáo và học sinh | Diễn Dler

Mục lục:

trừu tượng

Theo một nghiên cứu được công bố hôm thứ ba, Neuroengineers đã tạo ra một hệ thống mới có thể chuyển những suy nghĩ đơn giản thành lời nói dễ nhận biết, sử dụng trí thông minh nhân tạo và bộ tổng hợp giọng nói.

Một nhóm các nhà nghiên cứu có trụ sở tại New York đã có thể tái tạo lại các từ chỉ bằng hoạt động của não, một sự đổi mới có thể mở đường cho các công nghệ điều khiển não như điện thoại thông minh có thể chuyển suy nghĩ của bạn thành tin nhắn văn bản.

Tiến sĩ Nima Mesgarani, phó giáo sư tại Đại học Columbia, đã chỉ đạo nghiên cứu và kể Nghịch đảo rằng ông nhìn thấy tiềm năng lớn để giúp khôi phục lời nói cho những người đang hồi phục sau đột quỵ hoặc sống chung với bệnh xơ cứng teo cơ bên trái (ALS). Xa hơn nữa, loại công nghệ này cũng có thể mở ra cánh cửa cho các điện thoại thông minh kết nối não có thể cho phép người dùng nhắn tin bằng tâm trí của họ, mặc dù điều đó vẫn còn cách đó. Tác phẩm của ông đã được công bố trên tạp chí Báo cáo khoa học.

Một trong những động lực của công việc này là dành cho các phương thức tương tác giữa người và máy tính thay thế, chẳng hạn như giao diện có thể có giữa người dùng và điện thoại thông minh, anh nói. Tuy nhiên, điều đó vẫn còn xa với thực tế và hiện tại, thông tin có thể được trích xuất bằng các phương pháp không xâm lấn là không đủ tốt cho một ứng dụng giao diện máy tính nói.

Nghe bài phát biểu được tạo ra bởi giao diện não-máy tính.

Để phát triển kỹ thuật mới, Mesgarani và đồng nghiệp của mình, Tiến sĩ Ashesh Dinesh Mehta từ Viện Khoa học Thần kinh Đối tác Y tế Northwell, bắt đầu bằng cách kiểm tra hoạt động não của bệnh nhân động kinh cho nghiên cứu của họ. Những bệnh nhân này đã được cấy điện cực trong não để theo dõi các cơn động kinh, mà Mesgarani và Mehta có thể sử dụng để thu thập dữ liệu cho nghiên cứu của họ.

Bộ đôi này đã yêu cầu những người tham gia sẵn sàng lắng nghe người nói đọc các con số từ 0 đến 9, và sau đó ghi lại các tín hiệu não từ sự tương tác đó. Tiếp theo, họ đã đào tạo một mạng lưới thần kinh - một chương trình bắt chước cấu trúc nơ-ron trong não người - để nhận ra các mẫu trong các tín hiệu và chuyển chúng thành các từ có âm thanh robot bằng cách sử dụng bộ tổng hợp giọng nói, được gọi là bộ phát âm.

Kết quả là một đoạn thoại ngắn về âm thanh giống như Microsoft Sam đếm từ 0 đến 9. Phần ấn tượng chỉ là cách nói rõ ràng so với các phương pháp khác mà các nhà nghiên cứu đã thử nghiệm. Mặc dù vậy, vẫn còn rất nhiều việc phải làm.

Có thể phải mất một thập kỷ trước khi công nghệ này có sẵn, Mes nói rằng Mesgarani. Chúng tôi cần nhiều tiến bộ hơn cả về điện cực cấy ghép dài hạn, tương thích sinh học và / hoặc các công nghệ đột phá trong các phương pháp ghi thần kinh không xâm lấn. Chúng ta cũng cần hiểu rõ hơn về cách bộ não đại diện cho lời nói, để chúng ta có thể tinh chỉnh các phương pháp giải mã của mình.

Các bệnh nhân là một phần của nghiên cứu này, ví dụ, tất cả đều được phẫu thuật não để cấy ghép màn hình điện tâm đồ. Đây là một quá trình xâm lấn cực kỳ đòi hỏi phải phẫu thuật não mở, điều mà hầu hết mọi người có thể không sẵn sàng trải qua, ngay cả khi có khả năng khôi phục một số khả năng nói của họ.

Cho đến nay, nghiên cứu này đã giới thiệu một phương pháp giải mã tín hiệu não thành lời nói. Nếu chúng ta tìm ra cách phát hiện chính xác hoạt động của não mà không cần phẫu thuật, chúng ta sẽ tiến một bước gần hơn để không chỉ cách mạng hóa trị liệu ngôn ngữ, mà còn có khả năng mang lại điện thoại thông minh kết nối não.

Nghiên cứu giao diện não-máy tính đã nhận được sự quan tâm mới trong vài năm qua. Vào tháng 4 năm 2017, Facebook tuyên bố họ đang làm việc trên BCI trong hội nghị F8 hàng năm. Và Elon Musk đã thông báo vào tháng 11 năm 2018 rằng Neuralink, công ty khởi nghiệp BCI của riêng ông, đang tuyển dụng.

trừu tượng

Tái tạo kích thích thính giác là một kỹ thuật tìm ra sự gần đúng nhất của kích thích âm thanh từ dân số của hoạt động thần kinh gợi lên. Tái tạo lời nói từ vỏ não thính giác của con người tạo ra khả năng thần kinh học lời nói để thiết lập giao tiếp trực tiếp với não và đã được chứng minh là có thể trong cả điều kiện đảo ngược và bí mật. Tuy nhiên, chất lượng thấp của bài phát biểu được xây dựng lại đã hạn chế nghiêm trọng tiện ích của phương pháp này đối với các ứng dụng giao diện máy tính (BCI). Để cải tiến công nghệ tiên tiến trong tổng hợp thần kinh giọng nói, chúng tôi đã kết hợp những tiến bộ gần đây trong học tập sâu với những cải tiến mới nhất trong công nghệ tổng hợp giọng nói để tái tạo lại lời nói dễ hiểu từ vỏ não thính giác của con người. Chúng tôi đã nghiên cứu sự phụ thuộc của độ chính xác tái cấu trúc vào các phương pháp hồi quy tuyến tính và phi tuyến (mạng nơ ron sâu) và biểu diễn âm thanh được sử dụng làm mục tiêu tái thiết, bao gồm các thông số tổng hợp thính giác và tổng hợp giọng nói. Ngoài ra, chúng tôi đã so sánh độ chính xác tái tạo từ các dải tần số thần kinh thấp và cao. Kết quả của chúng tôi cho thấy một mô hình mạng nơ-ron sâu ước tính trực tiếp các tham số của bộ tổng hợp giọng nói từ tất cả các tần số thần kinh đạt được điểm số chủ quan và khách quan cao nhất trong một nhiệm vụ nhận dạng chữ số, cải thiện độ thông minh 65% so với phương pháp đường cơ sở sử dụng hồi quy tuyến tính để xây dựng lại quang phổ thính giác. Những kết quả này chứng minh tính hiệu quả của các thuật toán tổng hợp giọng nói và học tập sâu để thiết kế thế hệ tiếp theo của hệ thống BCI lời nói, nó không chỉ có thể khôi phục giao tiếp cho bệnh nhân bị liệt mà còn có khả năng biến đổi các công nghệ tương tác giữa người với máy tính.

Video liên quan: Robot cảm biến sóng não có thể phục vụ như phần mở rộng của cơ thể con người

$config[ads_kvadrat] not found