Avanzando el reconocimiento de gestos en smartphones
Explorando el reconocimiento de gestos para mejorar la interacción con el smartphone a través de sensores de movimiento.
― 7 minilectura
Tabla de contenidos
Los smartphones han cambiado un montón en los últimos años, volviéndose más inteligentes y fáciles de usar. Una razón para esto son los sensores integrados que ayudan a los teléfonos a saber cómo se mueven y están posicionados. Estos sensores incluyen acelerómetros y giroscopios, que pueden rastrear el movimiento y la orientación. Usando estas herramientas, los investigadores han empezado a explorar cómo hacer que los smartphones entiendan los gestos de los usuarios.
El Reconocimiento de gestos es cuando un dispositivo puede identificar diferentes movimientos que hace el usuario. Esta tecnología puede abrir nuevas formas de interactuar con smartphones y otros dispositivos sin necesidad de tocar la pantalla. La gente ha probado todo tipo de métodos para enseñar a los smartphones a reconocer gestos, incluyendo técnicas avanzadas de computación.
En este estudio, se usó un tipo especial de modelo computacional llamado Memoria a Largo y Corto Plazo (LSTM) para enseñar a los smartphones a diferenciar entre diez gestos específicos. Este modelo es bueno manejando datos que cambian con el tiempo, como los movimientos capturados por los sensores del teléfono. La razón de elegir acelerómetros y giroscopios es que proporcionan la mayor cantidad de información sobre cómo se mueve el teléfono.
Los investigadores exploraron diferentes maneras de usar los datos de los sensores para mejorar el proceso de reconocimiento de gestos. Miraron las especificidades de los datos que recogieron y sugirieron formas de hacer que el sistema funcione mejor en el futuro.
Antecedentes
El mundo de la Interacción Humano-Computadora ha avanzado mucho en los últimos años, especialmente enfocándose en cómo la gente puede usar smartphones de manera natural. Las interacciones basadas en gestos ahora se ven como una alternativa prometedora a los métodos de toque tradicionales. Muchos smartphones ahora vienen con Unidades de Medición Inercial (IMUs) integradas que ayudan a capturar movimientos sin necesidad de equipo extra. Como estos sistemas funcionan bien, podemos añadir fácilmente el reconocimiento de gestos a los smartphones.
Se han escrito muchos artículos sobre las ventajas de usar tanto acelerómetros como giroscopios para entender los movimientos. Estos sensores pueden capturar señales que describen cómo se realizan los gestos. Sin embargo, no hay una conexión directa entre los gestos que la gente hace y los datos recogidos por estos sensores, por eso se utilizan métodos de aprendizaje automático para reconocer y clasificar estos gestos.
Las técnicas de aprendizaje profundo, particularmente con LSTM, pueden aprender características importantes de los datos crudos de los sensores. Este método no se basa en reglas predefinidas, lo que permite que el sistema se adapte y aprenda de los datos que recibe. Los modelos LSTM están diseñados específicamente para recordar información por períodos más largos, lo que los hace una opción adecuada para tareas de reconocimiento de gestos.
Conjunto de Gestos
Para este proyecto, se seleccionaron diez gestos que eran distintos del uso regular del teléfono. Esto se hizo para asegurar que los gestos no fueran confundidos con acciones cotidianas que un usuario podría realizar mientras sostiene su teléfono.
Recolección de datos
Se recolectaron datos grabando las lecturas del acelerómetro y giroscopio del smartphone. Se creó una app especial para registrar esta información cuando un usuario realizaba cada gesto. Para obtener datos precisos, se utilizó otro teléfono para marcar el inicio y el final de cada gesto. Este paso era necesario para evitar capturar ruido extra que pudiera ocurrir si el usuario no tenía cuidado con el tiempo.
Se utilizaron dos smartphones idénticos, Nexus5X, para el proyecto, y ambos ejecutaban la misma versión del software Android. Un teléfono se dedicó a grabar gestos, mientras que el otro fue usado por un supervisor para anotar los tiempos de los gestos. Para asegurar que ambos teléfonos estuvieran sincronizados, se configuró un servidor de tiempo en uno, permitiendo que el otro alineara su reloj.
En total, 19 participantes tomaron parte en la recolección de datos, todos estudiantes. Ninguno de los participantes había usado reconocimiento de gestos con smartphones antes. Cada persona realizó varios conjuntos de gestos, que se registraron mientras sostenían el teléfono con la mano derecha para mantener consistencia en los datos.
Preprocesamiento de Datos
Después de recolectar los datos, los investigadores primero limpiaron los archivos eliminando entradas corruptas o incorrectas. Luego utilizaron las marcas de tiempo para separar cada gesto en archivos individuales. Estos archivos se procesaron más para crear segmentos de datos de longitud fija, que eran necesarios para el proceso de análisis.
Los investigadores utilizaron una técnica de ventana deslizante para descomponer los datos en partes más pequeñas. De esta manera, un solo gesto podría ser representado por múltiples puntos de datos, proporcionando más ejemplos de entrenamiento para el modelo. Cada gesto fue analizado y dividido en función de un tiempo específico, lo que ayudó a entender mejor los movimientos.
Entrenamiento del Modelo y Resultados
Con los datos preparados, los investigadores entrenaron diferentes modelos LSTM con los datos de gestos. Observaron qué tan bien funcionaron los modelos al reconocer gestos usando una combinación de todos los datos recolectados y un conjunto de datos más pequeño, que incluía datos con menos variaciones.
Al usar el conjunto de datos completo, el modelo logró una precisión de validación del 44.33%. Sin embargo, con el conjunto de datos limitado, el rendimiento mejoró significativamente, alcanzando precisiones entre el 81.8% y el 91.5%. Esto mostró que trabajar con datos más limpios conduce a resultados más precisos.
Se probaron varias configuraciones de modelo utilizando diferentes plataformas, y finalmente se encontró que diferentes configuraciones impactaban el rendimiento. Las capas LSTM se ajustaron para obtener los mejores resultados, enfocándose en cómo se preprocessaban los datos.
Desafíos y Mejoras
El estudio identificó varios desafíos que afectaron la precisión del reconocimiento de gestos. Un desafío fue los gestos superpuestos, donde un gesto es similar a otro. Por ejemplo, ciertos gestos podrían confundirse con partes de otros gestos. Esta superposición puede causar problemas en el proceso de clasificación.
Otro problema fue la normalización de datos. Los investigadores intentaron estandarizar los datos para mejorar la precisión, pero esto no proporcionó los resultados deseados. Las diferencias entre los gestos permanecieron a pesar de los esfuerzos por ajustar los datos.
Direcciones Futuras
En conclusión, la investigación demostró que los modelos LSTM mostraron promesas para reconocer gestos basados en sensores de smartphone. Aunque el proyecto avanzó, aún hay más pasos por tomar para mejorar. El trabajo futuro se centrará en técnicas avanzadas como analizar la aceleración sin los efectos de la gravedad, lo que podría ayudar a refinar aún más los datos.
Hay muchas aplicaciones para el reconocimiento de gestos usando smartphones, como controlar presentaciones, dispositivos de hogar inteligente, o incluso desbloquear el teléfono mismo. Al ampliar el conjunto de datos y refinar los modelos, podemos lograr una mejor precisión y confiabilidad en el reconocimiento de gestos, abriendo el camino a interacciones más intuitivas con los smartphones.
Los sistemas de reconocimiento de gestos en smartphones pueden cambiar cómo interactuamos con nuestros dispositivos, ofreciendo soluciones que son más flexibles y amigables para el usuario. Esta tecnología podría mejorar tareas cotidianas y cambiar la forma en que nos involucramos con el mundo digital.
Título: Gesture Recognition based on Long-Short Term Memory Cells using Smartphone IMUs
Resumen: Over the last few decades, Smartphone technology has seen significant improvements. Enhancements specific to built-in Inertial Measurement Units (IMUs) and other dedicated sensors of the smartphones(which are often available as default) such as- Accelerometer, Gyroscope, Magnetometer, Fingerprint reader, Proximity and Ambient light sensors have made devices smarter and the interaction seamless. Gesture recognition using these smart phones have been experimented with many techniques. In this solution, a Recurrent Neural Network (RNN) approach, LSTM (Long-Short Term Memory Cells) has been used to classify ten different gestures based on data from Accelerometer and Gyroscope. Selection of sensor data (Accelerometer and Gyroscope) was based on the ones that provided maximum information regarding the movement and orientation of the phone. Various models were experimented in this project, the results of which are presented in the later sections. Furthermore, the properties and characteristics of the collected data were studied and a set of improvements have been suggested in the future work section.
Autores: Yuvaraj Govindarajulu, Raja Rajeshwari Raj Kumar
Última actualización: 2023-08-16 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2308.11642
Fuente PDF: https://arxiv.org/pdf/2308.11642
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.