Avances en el Reconocimiento de Gestos de Mano Usando Deep Learning
Este estudio utiliza aprendizaje profundo para el reconocimiento de gestos de mano con señales musculares.
― 18 minilectura
Tabla de contenidos
- Visión General del Reconocimiento de Gestos de Mano
- Entendiendo la Electromiografía
- El Desafío de la Variabilidad en el Reconocimiento de Gestos
- El Papel del Aprendizaje Profundo
- Propósito del Estudio
- Estructura de la Tesis
- Electromiografía de Superficie y Reconocimiento de Gestos
- El Enfoque de Aprendizaje Automático Clásico
- El Papel del Aprendizaje Profundo en el Reconocimiento de Gestos
- El Conjunto de Datos Unibo-INAIL
- Diseño Experimental y Metodología
- Resultados
- Discusión
- Trabajo Futuro
- Conclusión
- Fuente original
- Enlaces de referencia
El reconocimiento de gestos de mano usando Señales Musculares es una forma emocionante de crear interacciones naturales entre humanos y computadoras. Este método puede llevar al desarrollo de sistemas como controladores de robots intuitivos y manos prostéticas avanzadas. Sin embargo, la tecnología aún enfrenta desafíos que limitan su uso en situaciones reales. Problemas como el ruido por movimiento, cambios en la postura, diferencias de tiempo y la colocación de sensores pueden afectar la precisión.
Este estudio es el primero en usar aprendizaje profundo en un conjunto de datos específico diseñado para este propósito, conocido como el conjunto de datos Unibo-INAIL. Este conjunto de datos es único porque analiza cómo diferentes factores, como la persona, su posición y sus movimientos, cambian las mediciones. Se recopilaron datos de siete individuos sanos realizando seis gestos de mano diferentes en cuatro posiciones de brazo distintas a lo largo de ocho sesiones.
Estudios recientes han intentado abordar la variabilidad en los datos de señales musculares cambiando la forma en que se realiza el entrenamiento. Han encontrado que usar datos de entrenamiento diversos puede ayudar a mejorar la precisión de los métodos tradicionales de aprendizaje automático. Uno de los métodos más precisos descubiertos hasta ahora es la Máquina de Soporte de Función de Base Radial (RBF) (SVM).
En este trabajo, se construyó un tipo de modelo de aprendizaje profundo llamado Red Neuronal Convolucional unidimensional (1d-CNN) utilizando un marco llamado PyTorch. Este modelo se basa en arquitecturas de CNN bidimensionales exitosas anteriormente utilizadas para reconocer gestos en otros conjuntos de datos. También se probaron diferentes métodos de entrenamiento basados en la forma en que se recopilan los datos con esta 1d-CNN.
Entrenar el modelo con datos de múltiples sesiones resultó en una mejor precisión de validación en comparación con entrenar con datos de una sola sesión. Se encontró que entrenar con datos de dos posturas diferentes era la estrategia más efectiva para mejorar el reconocimiento de posturas. Mientras tanto, entrenar con datos recopilados durante cinco días fue el mejor para reconocer gestos en diferentes días. Los resultados mostraron que el rendimiento del modelo de aprendizaje profundo era similar a los métodos tradicionales, especialmente en lo que respecta a la importancia de los datos recientes.
Visión General del Reconocimiento de Gestos de Mano
El reconocimiento de gestos de mano basado en señales musculares es un campo prometedor para crear sistemas fáciles de usar. Estos sistemas pueden ser utilizados para controlar robots, interfaces de juegos e incluso manos prostéticas. El objetivo principal es hacer que los dispositivos puedan entender las intenciones humanas a través del reconocimiento de gestos.
Las señales musculares son señales eléctricas producidas cuando los músculos se contraen, y se pueden detectar utilizando diferentes métodos. Hay métodos invasivos que utilizan agujas para alcanzar los músculos directamente, y hay métodos no invasivos que utilizan electrodos de superficie colocados sobre la piel. La Electromiografía de Superficie ([SEMG](/es/keywords/electromiografia-de-superficie--kkglv5d)) es una forma no invasiva de recopilar estas señales y se prefiere a menudo para desarrollar tecnologías de reconocimiento de gestos.
Uno de los principales desafíos en el diseño de sistemas para reconocer gestos es asegurar que puedan reconocer con precisión las señales en situaciones del mundo real. Aunque se han desarrollado dispositivos para entornos controlados, problemas como el ruido por movimiento, cambios en la postura y la necesidad de reposicionar los sensores pueden obstaculizar el rendimiento en aplicaciones de la vida real.
Los investigadores se enfocan en superar estos desafíos, especialmente en lo que respecta a cómo la variabilidad de las señales musculares puede afectar el uso a largo plazo. Los avances en aprendizaje profundo y la disponibilidad de bases de datos públicas de señales musculares están impulsando los esfuerzos de investigación. El conjunto de datos Unibo-INAIL, que se centra en varios factores que influyen en las señales musculares, es un recurso importante para esta investigación.
Entendiendo la Electromiografía
La electromiografía (EMG) es el estudio de las señales musculares, que se generan cuando los músculos se contraen. Estas señales pueden medirse utilizando electrodos de superficie, que no penetran la piel. La fuerza de la señal muscular depende del tamaño del músculo y de la distancia de los electrodos. Sin embargo, varias fuentes de ruido pueden interferir con estas señales, incluidos los artefactos de movimiento y la interferencia de líneas eléctricas. La interferencia de líneas eléctricas es causada por dispositivos eléctricos y puede cambiar en frecuencia o amplitud, lo que la convierte en una fuente significativa de error en el análisis de EMG.
Las señales musculares pueden variar según cuán activo esté el músculo, y puede haber cambios en las señales con el tiempo debido a la fatiga del usuario o cambios en la forma en que se contraen los músculos. Estas variaciones complican la tarea de reconocer con precisión los gestos de mano a partir de las señales musculares recolectadas de los individuos.
El Desafío de la Variabilidad en el Reconocimiento de Gestos
La variabilidad en las señales musculares representa un desafío para los sistemas de reconocimiento de gestos. Factores como las diferencias entre individuos, la fatiga y los cambios en la colocación de electrodos pueden llevar a interpretaciones inexactas de las señales musculares. Esto significa que reconocer gestos se convierte en una tarea compleja, ya que los modelos deben ser entrenados para tener en cuenta estas variaciones de manera efectiva.
En el aprendizaje automático, diferentes fuentes de datos pueden representar diferentes distribuciones. Reconocer gestos a partir de señales musculares a menudo requiere construir modelos capaces de generalizar a través de estas diferentes fuentes. Esto incluye escenarios donde los usuarios están en diferentes posturas, utilizando datos de sesiones variadas, o incluso entre diferentes individuos.
Para mejorar la precisión de los sistemas de reconocimiento de gestos, los investigadores se han centrado en estrategias que pueden manejar la variabilidad. Estos enfoques incluyen recalibrar modelos y adaptarlos según datos más antiguos, lo que puede ayudar a acomodar las diferencias en cómo se realizan los gestos a lo largo del tiempo.
El Papel del Aprendizaje Profundo
El aprendizaje profundo se ha convertido en una parte crucial del reconocimiento de gestos de mano, particularmente con datos de sEMG. Este método puede aprender automáticamente características de los datos sin depender en gran medida de la ingeniería manual de características. Se utilizan dos tipos principales de modelos de aprendizaje profundo: Redes Neuronales Convolucionales (CNNs), que son excelentes para capturar información espacial, y Redes Neuronales Recurrentes (RNNs), que pueden procesar datos secuenciales.
En el contexto del reconocimiento de gestos, las CNN han mostrado prometedoras capacidades para capturar los detalles de los datos de señal muscular. Esto es importante porque reduce la necesidad de una extensa extracción manual de características y permite que el modelo aprenda directamente de los datos en bruto.
Las técnicas de aprendizaje profundo ya han mostrado mejoras en el rendimiento de los sistemas de reconocimiento de gestos. Estudios que utilizan CNN han demostrado que pueden alcanzar tasas de precisión alta comparables o superiores a las técnicas tradicionales de aprendizaje automático. Estos avances hacen que el aprendizaje profundo sea una opción atractiva para futuras investigaciones en este área.
Propósito del Estudio
El objetivo principal de este estudio es utilizar métodos de aprendizaje profundo por primera vez en el conjunto de datos Unibo-INAIL, explorando los efectos tanto de la postura como del tiempo en el reconocimiento de gestos de mano basados en señales de sEMG. El estudio se centra en usar una CNN unidimensional para obtener información sobre qué tan bien pueden desempeñarse estos modelos con diferentes estrategias de entrenamiento que consideran la variabilidad presente en el conjunto de datos.
La investigación tiene como objetivo proporcionar una comparación directa entre el aprendizaje profundo y los métodos tradicionales de aprendizaje automático, examinando qué tan bien pueden generalizar estos enfoques a través de diferentes fuentes de variabilidad. Al entender el rendimiento del modelo de aprendizaje profundo, este estudio busca allanar el camino para futuros avances en el diseño de interfaces humano-máquina.
Estructura de la Tesis
La tesis está organizada en varias secciones clave que cubren la base de la investigación, metodologías, resultados y conclusiones extraídas del estudio. Los siguientes capítulos profundizarán en los detalles de la electromiografía de superficie, la arquitectura del modelo de CNN implementado, métodos de recopilación de datos, resultados del entrenamiento de validación y un análisis de los hallazgos.
El objetivo de esta estructura es construir un entendimiento completo sobre la importancia de cada componente en el contexto del reconocimiento de gestos de mano y la interacción humano-máquina.
Electromiografía de Superficie y Reconocimiento de Gestos
La electromiografía de superficie estudia las señales generadas cuando los músculos se contraen. Este capítulo analizará cómo se pueden analizar estas señales para crear sistemas de reconocimiento de gestos efectivos. El capítulo se divide en dos partes: la definición de electromiografía de superficie y su aplicación en el reconocimiento de gestos.
¿Qué es la Electromiografía de Superficie?
La electromiografía de superficie (sEMG) implica la detección y análisis de las señales EMG producidas por los músculos a través de electrodos de superficie no invasivos. Esta técnica permite a los investigadores medir la actividad muscular sin requerir procedimientos invasivos, lo que la hace adecuada para diversas aplicaciones, especialmente en el desarrollo de interfaces humano-máquina.
La señal EMG representa el potencial bioeléctrico generado por el flujo iónico durante la contracción muscular. La fuerza de la señal puede estar influenciada por factores como el tamaño del músculo, la distancia desde los electrodos y las fibras musculares específicas que se involucran en el movimiento. Comprender estas complejidades es esencial para mejorar los sistemas de reconocimiento de gestos.
Reconocimiento de Gestos Usando sEMG
El reconocimiento de gestos utilizando señales de sEMG tiene un potencial emocionante para desarrollar formas naturales para que los usuarios interactúen con las máquinas. El desafío principal radica en clasificar con precisión los gestos basándose en las señales musculares recopiladas. Esta tarea se basa en métodos de aprendizaje automatizado, que pueden reducir la complejidad y mejorar el rendimiento del reconocimiento sin necesidad de entender cada detalle de la fisiología subyacente.
El aprendizaje automatizado ha llevado a avances en el reconocimiento de gestos, con diversas técnicas empleadas para mejorar la precisión de la clasificación. Estas pueden incluir tareas auxiliares como estimar la fuerza y utilizar métodos de aprendizaje semi-supervisado para mejorar el rendimiento del modelo. Además, incorporar algoritmos de aprendizaje profundo puede ayudar a reducir la dependencia de la selección manual de características, permitiendo que los modelos identifiquen representaciones efectivas de manera independiente.
El Enfoque de Aprendizaje Automático Clásico
El aprendizaje automático clásico abarca algoritmos que no dependen de técnicas de aprendizaje profundo. Estos métodos aún juegan un papel vital en el reconocimiento de gestos basado en sEMG. Esta sección discute varios enfoques comunes y su papel en el procesamiento de señales musculares para la clasificación de gestos.
Los algoritmos clásicos incluyen métodos como k-Vecinos Más Cercanos (k-NN), Máquinas de Soporte Vectorial (SVM), Análisis Discriminante Lineal (LDA) y Bosques Aleatorios (RF). Estas técnicas generalmente requieren un pipeline estructurado que consiste en adquisición de datos, preprocesamiento, extracción de características y definición de modelos.
Sin embargo, los métodos tradicionales de aprendizaje automático a menudo luchan con la necesidad de conocimiento específico del campo, como seleccionar las características adecuadas y los procedimientos de preprocesamiento. El cambio hacia el aprendizaje profundo ha ayudado a abordar estas limitaciones, permitiendo un aprendizaje de características más robusto y un mejor rendimiento en conjuntos de datos diversos.
El Papel del Aprendizaje Profundo en el Reconocimiento de Gestos
El aprendizaje profundo ha transformado el panorama del reconocimiento de gestos, especialmente al trabajar con datos de sEMG. Con la capacidad de aprender características automáticamente, los métodos de aprendizaje profundo se están convirtiendo cada vez más en el enfoque preferido para analizar conjuntos de datos complejos.
Esta sección profundiza en las ventajas de usar técnicas de aprendizaje profundo para el reconocimiento de gestos. La principal fortaleza radica en su capacidad para manejar grandes volúmenes de datos y extraer representaciones significativas sin necesidad de extensa entrada manual. Como resultado, los modelos pueden aprender a diferenciar de manera eficiente entre varios gestos basándose en los patrones presentes en los datos de señales musculares.
Un aspecto significativo del aprendizaje profundo es aprovechar redes neuronales. La arquitectura de estas redes puede adaptarse a las necesidades específicas del reconocimiento de gestos, con diferentes capas diseñadas para capturar varias características. Entre ellas, las CNN han ganado popularidad debido a su capacidad para procesar información espacial y su efectividad en el reconocimiento de patrones en los datos.
El Conjunto de Datos Unibo-INAIL
El conjunto de datos Unibo-INAIL es un recurso valioso para estudiar el reconocimiento de gestos de mano usando sEMG. Este conjunto de datos fue creado para investigar cómo diferentes factores, incluyendo la posición del brazo y la variabilidad de la sesión, afectan el proceso de reconocimiento. En total, el conjunto incluye datos recopilados de siete sujetos realizando seis gestos de mano en cuatro posiciones de brazo diferentes durante ocho sesiones.
Protocolo de Recopilación de Datos
La recopilación de datos involucró la cuidadosa colocación de electrodos en los músculos del antebrazo relevantes para los gestos que se estaban estudiando. Cada sujeto realizó diez repeticiones de cada gesto de mano, con descansos para minimizar la fatiga. Este ejercicio repetitivo permitió a los investigadores examinar la consistencia y variabilidad de las señales musculares.
Estructura del Conjunto de Datos
El conjunto de datos está organizado en 224 fuentes de datos diferentes, cada una correspondiente a una combinación única de sujeto, día y postura de brazo. Dentro de cada fuente, se recopilaron diez repeticiones de cada gesto, lo que permite un análisis exhaustivo del reconocimiento de gestos en varios escenarios.
Esta estructura multi-fuente permite a los investigadores explorar el impacto de la variabilidad individual en el reconocimiento de gestos, proporcionando información sobre cómo se pueden entrenar los modelos para tener en cuenta las diferencias entre usuarios.
Diseño Experimental y Metodología
La metodología empleada en este estudio gira en torno al uso de un modelo de CNN unidimensional entrenado en el conjunto de datos Unibo-INAIL. Se tomaron varios pasos para asegurar que el rendimiento del modelo pudiera ser evaluado con precisión y comparado con métodos tradicionales de aprendizaje automático.
Preprocesamiento de Datos
El preprocesamiento de datos involucró segmentar las señales musculares en ventanas superpuestas, que luego fueron etiquetadas según el gesto realizado. Este enfoque permitió un conjunto de datos más manejable y mejoró la capacidad del modelo para reconocer patrones dentro de las señales musculares.
Estrategia de Entrenamiento y Validación
El estudio exploró varias estrategias de entrenamiento, utilizando diferentes subconjuntos del conjunto de datos para evaluar la capacidad del modelo de generalizar a través de nuevas posturas y diferentes días. Al implementar una estrategia de partición de datos en tres partes, el análisis pudo proporcionar información sobre qué tan bien podría el modelo adaptarse a variaciones en las señales musculares.
Arquitectura del Modelo
La arquitectura de la 1d-CNN fue diseñada específicamente para procesar los datos de señales musculares segmentados. Esta arquitectura consiste en varias capas, incluidas capas convolucionales para la extracción de características y capas completamente conectadas para la clasificación. El uso de normalización de lotes y abandono mejoró aún más la robustez del modelo.
Métricas de Rendimiento
El rendimiento del modelo CNN fue evaluado utilizando métricas como precisión intra-sesión, precisión inter-postura y precisión inter-día. Al medir el rendimiento del modelo en diferentes escenarios, la investigación pudo determinar la efectividad del enfoque de aprendizaje profundo en comparación con los métodos tradicionales.
Resultados
Los resultados de este estudio proporcionaron información valiosa sobre la efectividad del modelo de aprendizaje profundo para el reconocimiento de gestos. Los hallazgos destacaron varias tendencias clave, incluyendo el impacto de las estrategias de entrenamiento en el rendimiento del modelo.
Validación Intra-Sesión
El modelo logró una alta precisión del 94.5% durante la validación intra-sesión. Esta puntuación refleja la capacidad del modelo para clasificar correctamente los gestos cuando se entrenó y probó con los mismos datos de sesión.
Validación Inter-Postura e Inter-Día
Cuando se probó la precisión inter-postura, el modelo mostró una caída de precisión al 80.6%. Esta disminución indica que el modelo tiene dificultades para generalizar los gestos aprendidos a diferentes posturas de manera efectiva. La precisión de validación inter-día cayó aún más al 66.9%, mostrando un impacto considerable de la variabilidad temporal en el rendimiento.
Ventajas de Estrategias de Entrenamiento Multi-Postura y Multi-Día
El estudio encontró que implementar estrategias de entrenamiento que involucren múltiples posturas y días mejoró significativamente el rendimiento del modelo. La estrategia de entrenamiento de dos posturas dio como resultado una precisión inter-postura del 81.2%. Además, la estrategia de entrenamiento de cinco días produjo una precisión inter-día del 75.9%. Estos resultados enfatizan la importancia de tener datos de entrenamiento diversos para mejorar las capacidades de generalización del modelo.
Discusión
Los hallazgos demuestran el potencial de los enfoques de aprendizaje profundo en el reconocimiento de gestos de mano a partir de señales de sEMG. Al aprovechar el conjunto de datos Unibo-INAIL, el estudio proporciona una comprensión completa de varios factores que afectan la precisión del reconocimiento de gestos.
Adaptación del Usuario
Una tendencia interesante observada en los resultados es la adaptación del usuario. A medida que los sujetos practicaron los gestos consistentemente a lo largo de los días, su rendimiento mejoró, lo que llevó a una disminución de la variabilidad en las señales musculares. Esto resalta la necesidad de estrategias de entrenamiento que prioricen los datos recientes para aumentar la precisión del reconocimiento.
Limitaciones del Estudio
Aunque los resultados indican que el modelo de aprendizaje profundo muestra promesa, no superó a los métodos tradicionales en todos los escenarios. Esto plantea preguntas sobre si el rendimiento limitado se debe al diseño del conjunto de datos o si existen métodos de preprocesamiento más efectivos que podrían mejorar las capacidades del modelo.
Trabajo Futuro
Los próximos pasos en esta investigación implicarán investigar si métodos alternativos de preprocesamiento pueden mejorar el rendimiento del modelo de aprendizaje profundo. Esto puede incluir examinar la efectividad de análisis en el dominio temporal-frecuencia y emplear otros tipos de arquitecturas de CNN para capturar mejor las complejidades de los datos de señales musculares.
Conclusión
En conclusión, este estudio es el primero en implementar técnicas de aprendizaje profundo en el conjunto de datos Unibo-INAIL, que explora la variabilidad en el reconocimiento de gestos de mano utilizando señales de sEMG. Aunque el modelo de aprendizaje profundo logró resultados impresionantes, particularmente con estrategias de entrenamiento multi-postura y multi-día, también mostró limitaciones que justifican más investigación.
Al continuar refinando los métodos utilizados para preprocesar y analizar datos de reconocimiento de gestos, el potencial para mejorar la precisión y confiabilidad de las interfaces humano-máquina sigue siendo significativo. En última instancia, los hallazgos de este estudio contribuyen a un creciente cuerpo de conocimiento que puede mejorar el desarrollo de futuros sistemas de reconocimiento gestual.
Título: sEMG-based Hand Gesture Recognition with Deep Learning
Resumen: Hand gesture recognition based on surface electromyographic (sEMG) signals is a promising approach for developing Human-Machine Interfaces (HMIs) with a natural control, such as intuitive robot interfaces or poly-articulated prostheses. However, real-world applications are limited by reliability problems due to motion artefacts, postural and temporal variability, and sensor re-positioning. This master thesis is the first application of deep learning on the Unibo-INAIL dataset, the first public sEMG dataset exploring the variability between subjects, sessions and arm postures by collecting data over 8 sessions of each of 7 able-bodied subjects executing 6 hand gestures in 4 arm postures. Recent studies address variability with strategies based on training set composition, which improve inter-posture and inter-day generalization of non-deep machine learning classifiers, among which the RBF-kernel SVM yields the highest accuracy. The deep architecture realized in this work is a 1d-CNN inspired by a 2d-CNN reported to perform well on other public benchmark databases. On this 1d-CNN, various training strategies based on training set composition were implemented and tested. Multi-session training proves to yield higher inter-session validation accuracies than single-session training. Two-posture training proves the best postural training (proving the benefit of training on more than one posture) and yields 81.2% inter-posture test accuracy. Five-day training proves the best multi-day training, yielding 75.9% inter-day test accuracy. All results are close to the baseline. Moreover, the results of multi-day training highlight the phenomenon of user adaptation, indicating that training should also prioritize recent data. Though not better than the baseline, the achieved classification accuracies rightfully place the 1d-CNN among the candidates for further research.
Autores: Marcello Zanghieri
Última actualización: 2023-06-19 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2306.10954
Fuente PDF: https://arxiv.org/pdf/2306.10954
Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.