Avances en la Predicción de la Mirada Usando Datos de EEG
La investigación mejora la precisión en la predicción de la mirada a través de técnicas innovadoras de modelado EEG.
― 7 minilectura
Tabla de contenidos
- Ventajas del EEG sobre el Seguimiento Ocular Tradicional
- EEGViT: El Modelo Líder Actual
- Preguntas de Investigación
- Investigación Previa y Contexto Tecnológico
- Entendiendo los Datos de EEG
- Configuración del Experimento
- Arquitectura del Modelo
- Proceso de Entrenamiento
- Evaluación de la Precisión
- Comparación de Tiempo de Ejecución
- Perspectivas de Modelos Base
- Estudio de Permutación
- Conclusión
- Fuente original
- Enlaces de referencia
La predicción de la mirada es un área de investigación importante que intenta averiguar hacia dónde está mirando una persona basándose en diferentes tipos de datos. Una forma emocionante de lograr esto es usando datos de electroencefalografía (EEG). El EEG es una técnica que registra la actividad eléctrica en el cerebro. Es no invasiva, lo que significa que no requiere cirugía ni inserción de dispositivos en el cuerpo. Este método tiene ventajas potenciales sobre los sistemas tradicionales de seguimiento ocular que dependen de cámaras para capturar el movimiento ocular, que pueden ser restrictivos y requieren configuraciones específicas.
Ventajas del EEG sobre el Seguimiento Ocular Tradicional
A diferencia del seguimiento ocular basado en video, que necesita cámaras fijas, el EEG puede proporcionar datos sin necesidad de fijarse directamente en los ojos. Esta flexibilidad puede mejorar la usabilidad en varios entornos donde los sistemas tradicionales pueden no funcionar bien. Por ejemplo, el EEG es más fácil de usar en entornos más naturales, donde el movimiento es común, y no requiere ninguna configuración que pueda interferir con la comodidad del participante.
EEGViT: El Modelo Líder Actual
Hasta ahora, EEGViT ha sido uno de los mejores Modelos para predecir la mirada a partir de datos de EEG. Combina redes neuronales especializadas llamadas redes neuronales convolucionales (CNN) y transformadores, que son tipos de modelos de aprendizaje automático. Estos tipos de modelos ayudan a analizar las señales de EEG de manera más efectiva al procesar los datos de maneras únicas. Al ajustar estos modelos con datos de EEG, los investigadores han logrado un progreso significativo en la predicción de la mirada.
Preguntas de Investigación
El objetivo de nuestro estudio es responder dos preguntas importantes:
- ¿Cómo afectan diferentes tamaños de núcleos de convolución, que se utilizan en las CNN, la Precisión de las predicciones de mirada a partir de datos de EEG?
- ¿Cómo se comparan estos efectos con el uso de una convolución en todos los canales de EEG?
Al abordar estas preguntas, esperamos arrojar luz sobre cómo la elección del tamaño del núcleo impacta en el rendimiento del modelo.
Investigación Previa y Contexto Tecnológico
En los últimos diez años, los científicos han recurrido cada vez más a enfoques de aprendizaje automático para analizar datos de EEG, llevando avances en varios campos como la detección de emociones, el monitoreo de la salud y la evaluación cognitiva. Si bien el EEG y el seguimiento ocular han sido estudiados por separado durante muchos años, su uso combinado ha ganado impulso debido a los avances en modelos de aprendizaje automático.
Entendiendo los Datos de EEG
Los datos de EEG recopilados para la predicción de la mirada provienen de muchos sensores diferentes colocados en la cabeza. Para nuestra investigación, usamos un conjunto de datos específico que incluye información de 356 participantes usando un sistema de EEG de 128 canales. Esta configuración nos permite recopilar información extensa sobre la actividad cerebral mientras los participantes fijan la mirada en ciertos puntos de una pantalla.
Configuración del Experimento
En el estudio, se pidió a los participantes que se concentraran en puntos específicos mostrados en una cuadrícula en una pantalla. Por cada fijación, se registraron simultáneamente sus señales de EEG junto con la posición de la mirada. Este registro dual permite un Entrenamiento preciso de nuestro modelo de Predicción de Mirada, lo cual es clave para mejorar su rendimiento.
Arquitectura del Modelo
Nuestro modelo se basa en una combinación de arquitecturas de CNN y transformador. Comenzamos con dos capas de convolución diseñadas para filtrar características esenciales de los datos de EEG.
En la primera capa, usamos un tamaño de núcleo más pequeño para capturar características temporales, lo que ayuda a entender cómo varía la actividad cerebral con el tiempo. Esta elección tenía como objetivo mejorar la resolución de las características que estamos capturando en comparación con otros modelos con núcleos más grandes.
La segunda capa utilizó un enfoque diferente, empleando un núcleo de profundidad que escanea todos los canales de EEG a la vez. Esto es diferente de modelos anteriores que usaron núcleos más pequeños, que pueden perder relaciones espaciales importantes entre los electrodos que componen la configuración de EEG.
Proceso de Entrenamiento
Para el entrenamiento de nuestro modelo, dividimos el conjunto de datos de EEG en tres partes: entrenamiento, validación y prueba. Esta estrategia ayuda a garantizar que nuestra evaluación sea justa y que el modelo aprenda de manera efectiva sin sobreajustarse a un conjunto de datos limitado. Usamos métodos de optimización de aprendizaje automático bien conocidos para ajustar nuestro modelo durante el entrenamiento, buscando minimizar el error de validación posible.
Evaluación de la Precisión
Como parte de nuestra evaluación, comparamos las predicciones de nuestro modelo con puntos de referencia establecidos. Medimos la precisión usando dos métricas principales: el error cuadrático medio (RMSE) y la distancia euclidiana media (MED). Un RMSE más bajo indica un mejor rendimiento, reflejando predicciones de mirada más precisas.
Curiosamente, nuestro modelo mostró mejoras sobre métodos existentes. La combinación de un gran núcleo de convolución de profundidad en todos los canales de EEG jugó un papel significativo en este éxito. Al escanear todos los canales a la vez, nuestro modelo pudo aprender mejores relaciones entre diferentes electrodos, que son cruciales para una predicción precisa de la mirada.
Comparación de Tiempo de Ejecución
Uno de los objetivos de nuestra investigación también fue evaluar el tiempo de ejecución de nuestro método. Aunque nuestro enfoque fue más lento que modelos más simples, se desempeñó más rápido que los métodos de última generación. Los ahorros en tiempo fueron un resultado positivo, ya que reducir el tiempo de entrenamiento permite iteraciones y mejoras más rápidas en el modelo.
Perspectivas de Modelos Base
Además de evaluar nuestro método, también examinamos modelos de aprendizaje automático tradicionales más simples. Sorprendentemente, modelos básicos como KNN y regresión lineal no tuvieron un buen rendimiento al predecir la mirada a partir de señales de EEG. Produjeron resultados que no eran significativamente diferentes de suposiciones aleatorias, lo que resaltó la complejidad de los datos de EEG y cómo requieren enfoques más sofisticados para producir resultados significativos.
Estudio de Permutación
También investigamos cómo el orden de los canales de EEG podría afectar la precisión de las predicciones de mirada. Al cambiar el orden de los canales, encontramos que el rendimiento del modelo se mantuvo consistente. Esto sugiere que las relaciones entre diferentes señales de EEG pueden ser inherentemente complejas y no fáciles de capturar simplemente reorganizando los canales.
Conclusión
En resumen, desarrollamos un método para predecir la mirada a partir de datos de EEG que muestra mejoras sobre modelos anteriores. Nuestros hallazgos indicaron que usar un núcleo de convolución de profundidad más grande que abarque todos los canales de EEG tiene un impacto profundo en el rendimiento del modelo. Aunque nuestro modelo mejoró la precisión en comparación con métodos existentes, es esencial tener en cuenta que aún queda mucho trabajo por hacer. Los niveles de rendimiento actuales aún no igualan los logrados por los sistemas de seguimiento ocular basados en video tradicionales.
La investigación continua es vital para mejorar las técnicas de predicción de mirada basadas en EEG. Explorar diferentes enfoques de aprendizaje automático y conjuntos de datos ayudará a empujar los límites más allá, acercándonos a soluciones más robustas que se puedan aplicar en escenarios del mundo real. El potencial para el seguimiento ocular basado en EEG es significativo, y a medida que la tecnología avance, pronto podríamos ver aplicaciones más amplias en varios campos, como la atención médica, los juegos y más.
Título: Effect of Kernel Size on CNN-Vision-Transformer-Based Gaze Prediction Using Electroencephalography Data
Resumen: In this paper, we present an algorithm of gaze prediction from Electroencephalography (EEG) data. EEG-based gaze prediction is a new research topic that can serve as an alternative to traditional video-based eye-tracking. Compared to the existing state-of-the-art (SOTA) method, we improved the root mean-squared-error of EEG-based gaze prediction to 53.06 millimeters, while reducing the training time to less than 33% of its original duration. Our source code can be found at https://github.com/AmCh-Q/CSCI6907Project
Autores: Chuhui Qiu, Bugao Liang, Matthew L Key
Última actualización: 2024-08-06 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2408.03478
Fuente PDF: https://arxiv.org/pdf/2408.03478
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.