Avances en neuroprótesis para la comunicación oral
Nuevas tecnologías no invasivas buscan mejorar la capacidad de habla para personas con discapacidades.
― 9 minilectura
Tabla de contenidos
- Métodos no invasivos para el reconocimiento del habla
- Preparándose para el desarrollo de neuroprótesis del habla
- Investigando la conexión entre el habla explícita y la encubierta
- Experimentos de decodificación de EEG en tiempo real
- Desafíos de la interferencia de la actividad muscular
- Elegir los modelos de decodificación correctos
- Evaluando el efecto de la densidad de electrodos
- Contribuciones distintas de EEG y EMG
- Explorando el impacto de los filtros adaptativos
- Creando la interfaz de Brain-Gmail
- Últimos pensamientos sobre interfaces de habla silenciosa
- Conclusión
- Fuente original
- Enlaces de referencia
La tecnología de neuroprótesis se está convirtiendo en una herramienta importante para las personas que tienen problemas para hablar. Esto puede ser causado por diversos problemas de salud, como accidentes cerebrovasculares en el tronco encefálico, esclerosis lateral amiotrófica (ELA) o cirugías en la garganta que dificultan el habla.
Muchas ayudas de comunicación existentes, como los sistemas de seguimiento ocular, pueden ser bastante lentas y agotadoras para los usuarios. Esto es especialmente cierto para las personas con ELA en etapa avanzada, que pueden enfrentar problemas adicionales con su visión y movimientos oculares. Afortunadamente, los desarrollos recientes en Interfaces Cerebro-Computadora (BCI) que registran la actividad cerebral directamente han mostrado una gran promesa. Estos dispositivos pueden ayudar a los usuarios a producir palabras a velocidades más cercanas al habla normal. Sin embargo, estos métodos requieren cirugía para implantar electrodos en el cerebro, lo que puede causar miedo y malestar a los pacientes.
Por lo tanto, hay un gran impulso para crear dispositivos de habla que usen métodos no invasivos de grabación de la actividad cerebral. Esto haría que la tecnología de comunicación sea más accesible para las personas con discapacidades del habla.
Métodos no invasivos para el reconocimiento del habla
Hay una variedad de técnicas no invasivas para decodificar el habla a partir de señales cerebrales. Algunas de estas incluyen la imagenología por resonancia magnética funcional (fMRI), magnetoencefalografía (MEG) y electroencefalografía (EEG). Mientras que fMRI y MEG ofrecen un buen detalle espacial, requieren equipos grandes y complejos que no son prácticos para el uso diario.
Por otro lado, la EEG es más simple y se puede utilizar en entornos más naturales. Las mejoras recientes en sistemas de EEG de ultra alta densidad han permitido obtener una mejor resolución en las grabaciones, haciéndola más efectiva para la decodificación del habla.
Preparándose para el desarrollo de neuroprótesis del habla
Para crear una neuroprótesis del habla efectiva, los investigadores necesitan recopilar grabaciones cerebrales que estén vinculadas al habla real. Esto significa recoger señales del cerebro mientras las personas están hablando normalmente. Sin embargo, decodificar el habla que se imagina, en lugar de hablada, requiere métodos diferentes, ya que no se producen sonidos vocales.
Un enfoque común para el habla imaginada es pedir a los sujetos que piensen en palabras mientras siguen un ritmo establecido. Sin embargo, este método tiene desafíos. Por ejemplo, los participantes a menudo no pueden controlar el ritmo y pueden tener problemas para producir palabras de manera tan natural como lo harían en una conversación informal. Esto limita cuánto se puede recopilar y afecta la calidad de la información obtenida.
Además, la investigación sugiere que las señales de habla imaginada son más difíciles de interpretar que las de la habla real. Esto resalta la necesidad de patrones de habla más naturales en el desarrollo de BCIs.
Investigando la conexión entre el habla explícita y la encubierta
Para crear BCIs funcionales de habla para uso diario, los investigadores se están enfocando en modelos de decodificación basados en EEG. Sin embargo, todavía hay incertidumbre sobre si los datos de EEG recopilados durante el habla normal se pueden utilizar para decodificar la habla imaginada. La mayoría de los estudios actuales de EEG se han centrado ya sea en la habla imaginada o en la actividad cerebral antes de que comience la habla para evitar interferencias de la actividad muscular durante la misma.
El objetivo de esta investigación es estudiar los vínculos entre el habla que se expresa en voz alta y aquella que solo se piensa. Los investigadores recopilaron datos de actividad cerebral utilizando sistemas de EEG de ultra alta densidad, junto con actividad de movimientos oculares y músculos faciales, durante tanto el habla como la imaginación del habla. Luego, crearon modelos para predecir palabras habladas y analizaron qué señales cerebrales contribuyeron a una decodificación exitosa.
Experimentos de decodificación de EEG en tiempo real
En un experimento, los investigadores probaron la capacidad de clasificar cinco palabras diferentes dichas por los participantes bajo tres condiciones: hablando en voz alta, susurrando y pensando en silencio. Cada participante usó una interfaz web para indicar los colores de los botones a hacer clic.
El volumen del habla disminuyó de hablar en voz alta a susurrar y luego a pensar en silencio. Usando EEG de ultra alta densidad, los investigadores registraron la actividad cerebral durante estas tareas de habla, enfocándose en regiones clave del cerebro vinculadas a la producción del habla.
Cada participante decía la misma palabra cinco veces, usando una señal de cuenta regresiva para mantener el ritmo. Hablaban en tres formatos: habla clara, habla susurrada y repetición silenciosa. Después de esto, los investigadores midieron las señales de EEG, analizaron los datos y luego pusieron estas señales limpias en un modelo diseñado para decodificar palabras habladas.
Desafíos de la interferencia de la actividad muscular
La actividad muscular durante el habla puede interferir con la calidad de las grabaciones de EEG. Para entender el impacto de esta interferencia, los investigadores midieron señales de los músculos faciales junto con el EEG. Encontraron que la actividad muscular era mucho más alta durante el habla clara en comparación con susurrar o pensar en silencio.
Al comparar cuánto informaban las señales musculares los datos de EEG, los investigadores pudieron ver cómo la actividad muscular afectaba la calidad de las señales cerebrales. También observaron las conexiones entre las señales de EEG y la actividad muscular a través de diferentes pasos de preprocesamiento. El objetivo era determinar cuán efectivamente podían aislar la actividad cerebral relacionada con el habla del ruido muscular.
Elegir los modelos de decodificación correctos
Para analizar la actividad cerebral relacionada con el habla, los investigadores analizaron varios modelos de decodificación. Examinaron CNN (red neuronal convolucional), RNN (red neuronal recurrente) y SVM (máquina de vectores de soporte).
Mientras que CNN y RNN tuvieron un buen rendimiento en la predicción de palabras durante las pruebas, SVM ofreció un rendimiento más bajo. Por lo tanto, se seleccionó EEGNet, un tipo específico de CNN, para un análisis más detallado debido a su rendimiento superior.
Evaluando el efecto de la densidad de electrodos
Los investigadores también estudiaron cómo el número de electrodos impactaba en la precisión de las predicciones de palabras. Al probar modelos con diferentes números de electrodos, desde cuatro hasta treinta y dos, determinaron que usar más electrodos generalmente aumentaba la precisión. Sin embargo, las mejoras fueron más significativas durante las tareas de habla susurrada.
Contribuciones distintas de EEG y EMG
A continuación, los investigadores exploraron cómo las señales de EEG diferían de las señales de actividad muscular durante las tareas del habla. Implementaron un modelo de decodificación separado para cada tipo de señal y compararon su efectividad en la predicción de palabras. Este análisis reveló algunas superposiciones en el tiempo entre las señales musculares y cerebrales, pero se centraron mayormente en períodos diferentes.
El análisis mostró diferencias significativas en las señales relacionadas con el habla y las actividades musculares, subrayando la importancia de eliminar el ruido muscular para una decodificación precisa de la actividad cerebral relacionada con el habla.
Explorando el impacto de los filtros adaptativos
Una de las técnicas clave utilizadas para mejorar las grabaciones de EEG fue la implementación de filtros adaptativos destinados a reducir la interferencia de la actividad muscular. Estos filtros ayudaron a reducir la influencia de las señales musculares en los datos de EEG.
Al comparar las contribuciones de diferentes regiones cerebrales a la decodificación del habla antes y después de aplicar estos filtros, los investigadores notaron mejoras en varias áreas relacionadas con el habla, confirmando que la reducción de ruido a través del filtrado adaptativo fue beneficioso.
Creando la interfaz de Brain-Gmail
Una aplicación emocionante de esta investigación fue el desarrollo de una interfaz que permitía a los participantes controlar su cuenta de Gmail usando sus pensamientos combinados con comandos de voz. Los participantes podían usar sus datos de EEG para seleccionar colores que representaban acciones, como leer o responder correos electrónicos.
Al entrenar la interfaz para entender comandos basados en la actividad cerebral, el sistema podría decodificar colores que representaban varias acciones, como abrir correos electrónicos y generar respuestas utilizando la herramienta ChatGPT. Esta capacidad destaca el potencial de aplicaciones prácticas de la tecnología de neuroprótesis del habla para mejorar la comunicación de quienes tienen discapacidades del habla.
Últimos pensamientos sobre interfaces de habla silenciosa
El objetivo subyacente de esta investigación es crear dispositivos que permitan a las personas comunicarse sin necesidad de vocalizar sus palabras. Esta tecnología podría ser especialmente útil para aquellos con dificultades del habla o cuando la comunicación verbal no es práctica.
Si bien algunos estudios han mostrado éxito con la entrada de habla imaginada, los investigadores encontraron que la precisión disminuye significativamente en escenarios en línea. En contraste, susurrar mostró resultados efectivos tanto en pruebas fuera de línea como en línea, lo que lo convierte en una opción más práctica para la comunicación silenciosa.
La investigación llama la atención sobre la importancia de los métodos de Filtrado Adaptativos y la relación entre diversas condiciones del habla. El trabajo futuro debería centrarse en hacer que estas tecnologías sean más robustas y amigables para el usuario, particularmente en aplicaciones del mundo real.
Conclusión
La exploración de la tecnología de neuroprótesis para el habla aún se está desarrollando, pero tiene un gran potencial para aquellos que enfrentan desafíos en la comunicación. Al utilizar técnicas avanzadas en EEG y filtrado adaptativo, los investigadores buscan mejorar la precisión de los decodificadores del habla. Con esfuerzos continuos, la esperanza es ofrecer soluciones de comunicación prácticas que puedan ayudar a mejorar la calidad de vida de las personas con discapacidades del habla.
Título: Delineating neural contributions to electroencephalogram-based speech decoding
Resumen: Speech Brain-computer interfaces (BCIs) have emerged as a pivotal technology in facilitating communication for individuals with speech impairments. Utilizing electroencephalography (EEG) for noninvasive speech BCIs offers an accessible and affordable solution, potentially benefiting a broader audience. However, EEG-based speech decoding remains controversial especially for overt speech, due to difficulties in separating speech-related neural activities from myoelectric potential artifacts generated during articulation. Here we aim to delineate the extent of the neural contributions by employing Explainable AI techniques to a convolutional neural network predicting spoken words based on signals obtained by ultra-high-density (uhd)-EEG. We found that electrode-wise contributions to the decoding cannot be explained by their mutual information with electromyography (EMG). Furthermore, contributing periods of speech to EEG-based decoding are distinct from those to decoding solely relying on EMG. In contrast, there are significant overlaps in signal timings contributing to EEG-based decoding, regardless of vocal conditions such as overt or covert speech. Notably, the denoising process successfully enhanced the decoding contribution from electrodes within speech-related brain areas for all speech conditions. Altogether, our findings support the idea that, with appropriate preprocessing, EEG becomes a valuable tool for decoding spoken words based on underlying neural activities.
Autores: Shuntaro Sasai, M. Sato, Y. Kabe, S. Nobe, A. Yoshida, M. Inoue, M. Shimizu, K. Tomeoka
Última actualización: 2024-05-27 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.05.09.591996
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.05.09.591996.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.