Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones# Inteligencia artificial

FaceTouch: Una nueva forma de monitorear el toque de la cara

FaceTouch rastrea los contactos mano-cara para ayudar a reducir la propagación de enfermedades.

― 11 minilectura


Rastreando los toques enRastreando los toques enla cara con tecnologíamano-cara usando técnicas avanzadas.Un sistema que identifica los contactos
Tabla de contenidos

Muchos virus se propagan a través de nuestro sistema respiratorio, pasando frecuentemente de una persona a otra. Un buen ejemplo de esto es el Covid-19, que destacó la importancia de rastrear y reducir los contactos para prevenir su propagación. Sin embargo, hay un vacío en los métodos automáticos que pueden detectar efectivamente cuando alguien se toca la cara, especialmente en lugares urbanos concurridos o interiores.

En este artículo, presentamos un nuevo programa informático conocido como FaceTouch. Este programa utiliza tecnología avanzada para reconocer cuándo las manos entran en contacto con las caras a través de feeds de video, ya sea de videollamadas, cámaras de autobuses o cámaras de seguridad. Incluso cuando las caras están parcialmente bloqueadas, FaceTouch puede aprender a identificar estos momentos observando movimientos corporales como acciones de los brazos. Este sistema va más allá de solo detectar movimientos de manos y proximidad a la cara, siendo útil en entornos concurridos. Usa un método llamado Aprendizaje Contrastivo Supervisado para entrenarse en un conjunto de datos que recopilamos, ya que no hay Conjuntos de datos de referencia disponibles.

La gente tiene una tendencia natural a tocarse la cara, especialmente áreas sensibles como los ojos, la nariz y la boca. Este comportamiento puede aumentar los riesgos de salud al introducir gérmenes en el cuerpo y propagar enfermedades. Por lo tanto, es esencial monitorear los toques en la cara para cambios de comportamiento. Un sistema automatizado que pueda interpretar las acciones humanas en entornos complicados puede ser beneficioso en muchas situaciones. Durante pandemias, poder rastrear dónde nuestras manos tocan podría ayudar a entender cómo se propagan las enfermedades.

Recientemente, los avances en visión por computadora y aprendizaje profundo nos han ayudado a aprender varios aspectos de las acciones humanas y cómo interactúan con su entorno. Aunque todavía hay vacíos en encontrar conjuntos de datos de imágenes del mundo real para reconocer los toques de mano a cara, algunos estudios se enfocan en usar dispositivos inteligentes portátiles para detectar estas acciones. Sin embargo, este enfoque puede ser complicado y no sostenible, ya que requiere datos de múltiples fuentes de diferentes personas. Otros sistemas dependen de detectar por separado manos y caras y decidir si ha ocurrido un toque basándose en sus distancias. Este método puede resultar en errores, especialmente cuando los movimientos de las manos parecen tocar la cara pero en realidad son acciones no relacionadas, como beber.

En este trabajo, presentamos las siguientes contribuciones:

  1. La introducción del marco FaceTouch que tiene como objetivo detectar toques de mano a cara en varias situaciones, incluyendo videollamadas, imágenes de autobuses y grabaciones de CCTV. Este marco aprende a detectar los toques incluso cuando la cara está parcialmente oculta, observando gestos corporales como movimientos de los brazos.
  2. Ampliamos el uso del aprendizaje autosupervisado a un aprendizaje totalmente supervisado, utilizando de manera efectiva etiquetas de imagen.
  3. Creamos un nuevo conjunto de datos específicamente para toques de mano a cara, capturando varias poses humanas en entornos interiores y exteriores.
  4. Analizamos diferentes modelos de aprendizaje profundo que pueden abordar desafíos similares.

Después de la introducción, explicaremos trabajos relacionados y métodos previamente utilizados. Luego, describiremos el marco FaceTouch, los métodos de entrenamiento y las métricas de evaluación. Resumiremos los resultados y discutiremos en relación con la literatura actual, notando trabajos futuros y limitaciones. Finalmente, concluiremos nuestra investigación.

Trabajo Relacionado

Varios estudios se relacionan con este tema y se pueden agrupar en dos categorías:

Detección a través de Dispositivos de Sensores

Algunos métodos utilizan relojes inteligentes para detectar toques espontáneos en la cara, analizando datos de acelerómetros. Estos métodos implican varias técnicas de aprendizaje automático, incluyendo Random Forest y Support Vector Machines. Enfoques similares utilizan datos de acelerómetros para identificar toques en la cara. Se han desarrollado otras tecnologías portátiles para ayudar a prevenir el toque inconsciente de la cara, utilizando datos de acelerómetros y aprendizaje profundo para la clasificación del movimiento de las manos. Además, un estudio utilizó un dispositivo que se lleva en la oreja, detectando toques de manos y identificándolos como mucosos o no mucosos al analizar señales térmicas y fisiológicas que indican cambios en la piel durante el contacto con la cara.

Detecciones Separadas de Manos y Caras

Identificar toques en la cara también se puede hacer detectando por separado una mano y una cara y calculando la distancia entre ellas para ver si ocurrió un toque. Para la detección de caras, se han desarrollado varios métodos ligeros que funcionan bien en tiempo real para dispositivos de borde. Un método utiliza pirámides de características y arquitecturas profundas para detectar y localizar caras en varios contextos. Otro método se enfoca en la detección de caras pequeñas utilizando técnicas de CNN y redimensiona las imágenes de entrada para una mejor detección multiresolución.

Para la detección de manos, se ha creado un modelo CNN sin postura para reconocer manos a partir de imágenes RGB. Otros estudios han mejorado la detección de manos utilizando bloques de aprendizaje profundo para una mejor interpretación de resultados. Algunos investigadores han introducido Redes Generativas Antagónicas para reconstruir representaciones de manos, mientras que otros han desarrollado modelos para estimar poses de manos basándose en puntos clave.

En resumen, se han logrado progresos utilizando datos de dispositivos de sensores y enfoques aritméticos para entender las acciones de tocarse la cara con las manos. Además, se han realizado avances en la localización de la oclusión facial causada por las manos, pero siguen existiendo desafíos para reconocer los toques en la cara en escenarios del mundo real.

Materiales y Métodos

El proyecto recibió aprobación ética del Urban Observatory en la Universidad de Newcastle. No fue necesario el consentimiento individual ya que los datos utilizados no revelan información personal. Solo presentamos hallazgos basados en datos disponibles públicamente, con las caras desenfocadas para proteger la privacidad.

En esta sección, discutimos nuestro enfoque, arquitectura, materiales, métricas de evaluación y detalles de implementación, incluyendo hiperparámetros del modelo.

Para detectar los toques en la cara, usamos una entrada de imagen RGB, que varía en escala y resolución. Contamos con aprendizaje contrastivo supervisado para abordar esta tarea. Este método es similar a la pérdida de tripletas, que ha demostrado tener un mejor rendimiento que el aprendizaje supervisado tradicional.

En el aprendizaje contrastivo supervisado, empleamos dos redes: una red codificadora y una red de proyección. La red codificadora mapea los datos de entrada a una representación vectorial, mientras que la red de proyección mapea a otro vector. Esta configuración nos permite medir distancias en el espacio vectorial latente. La codificadora puede consistir en arquitecturas populares como ResNet o MobileNet, mientras que la red de proyección se usa solo durante el entrenamiento.

La Arquitectura de FaceTouch

Nuestro marco propuesto permite la detección y localización de humanos y caras a varias escalas. Consiste en cuatro componentes principales:

  1. Backbone: Utilizamos dos modelos backbone para la Detección de Objetos y caras, mejorando la capacidad del marco para clasificar toques de cara en escenas complejas. Inicialmente, opera un detector de caras, mientras que el detector humano permanece inactivo. Si no se detectan caras, se activa el detector humano para identificar humanos en la escena.

  2. Codificador de Acciones: Después del backbone, pasamos las imágenes detectadas a un codificador para clasificarlas e identificar posibles toques en la cara utilizando aprendizaje contrastivo supervisado. Entrenamos varias arquitecturas codificadoras de última generación para optimizar velocidad y eficiencia.

  3. Desenfoque Facial: Para garantizar la privacidad y reducir los riesgos de identificación, añadimos ruido gaussiano a las imágenes que contienen caras detectadas, asegurando el anonimato.

  4. IA Explicable: Incorporamos una característica para visualizar la atención durante la inferencia, utilizando Grad-CAM para resaltar qué partes de la imagen se enfoca el modelo al clasificar un toque en la cara.

Pérdidas del Marco y Métricas de Evaluación

Para la parte de detección de objetos, definimos la pérdida basada en localización y confianza, asegurando una detección y clasificación precisa. Para entrenar el codificador de acciones, utilizamos pérdida contrastiva supervisada. También aplicamos la pérdida de entropía cruzada tradicional emparejada con pérdida focal para abordar desbalances de clases.

Evaluamos el rendimiento del modelo utilizando precisión, recall y F1-score. Calculamos la curva de Característica Operativa del Receptor (ROC) para evaluar el rendimiento de clasificación tanto del backbone como de los codificadores de acciones.

Datos Recopilados

Actualmente no hay conjuntos de datos de aprendizaje profundo de acceso abierto para etiquetar y clasificar toques de mano a cara. Para abordar esto, compilamos nuestro conjunto de datos, reuniendo más de 20,000 imágenes de internet. Inspeccionamos visualmente los datos para enfocarnos en casos relevantes de individuos tocándose la cara y dividimos las imágenes en conjuntos de entrenamiento y prueba.

Entrenamos el modelo para analizar tanto imágenes faciales como de cuerpo completo, dándole la flexibilidad de reconocer toques de mano independientemente del ángulo o la elevación de la imagen. Si bien esto puede complicar el entrenamiento, permite que el modelo se adapte a diversas necesidades de detección en múltiples entornos.

Detalles de Implementación

Detección de Objetos: Entrenamos el detector de objetos en un conjunto de datos bien conocido siguiendo los procedimientos adecuados. Utilizamos técnicas de aumento de datos y optimizamos el modelo basándonos en tasas de aprendizaje y tamaños de lotes.

Reconocimiento de Acciones: Para la clasificación de acciones, entrenamos clasificaciones usando tanto aprendizaje supervisado tradicional como aprendizaje contrastivo supervisado. Aseguramos explorar una gama de arquitecturas, ajustando capas, funciones de activación y métodos de optimización para lograr un alto rendimiento.

Resultados y Análisis

Después de entrenar diferentes modelos dentro de FaceTouch, nuestros resultados demuestran mejoras significativas en el rendimiento utilizando aprendizaje contrastivo supervisado en varias arquitecturas. Registramos métricas como Precisión Media Promedio, Recall y F1-score, indicando la efectividad de nuestro enfoque.

El modelo de detección de objetos mostró un buen rendimiento en el reconocimiento de humanos y caras, mientras que los modelos de reconocimiento de acciones destacaron cuando fueron entrenados con aprendizaje contrastivo supervisado. También analizamos cómo el modelo se enfocó en las posiciones de las manos y la detección facial, resaltando clasificaciones exitosas frente a identificaciones incorrectas.

El marco FaceTouch demuestra ser útil en aplicaciones en tiempo real, detectando con éxito toques de mano a cara en diferentes contextos, incluyendo videollamadas, imágenes de autobuses de baja resolución y entornos urbanos complejos. El sistema puede ayudar a personas con discapacidad visual a mantener una distancia social segura mientras están al tanto de otros que podrían tocarse la cara.

Direcciones Futuras de Investigación

Los hallazgos de este estudio podrían ampliarse incorporando datos secuenciales en flujos de video para detectar patrones en los toques de mano a cara u otras interacciones comunes en espacios públicos. El marco FaceTouch podría mejorar utilizando información temporal y encargándose de etiquetar los cuadros secuencialmente. Además, las capacidades de detección de objetos podrían extenderse para incluir otros elementos más allá de figuras humanas.

En conclusión, FaceTouch representa un enfoque nuevo y efectivo para detectar toques de mano a cara en flujos de video no editados. Al asegurar el anonimato de los individuos y aprovechar un conjunto de datos recién creado, el marco muestra una alta validación en los datos de prueba y tiene gran potencial para aplicaciones futuras en el monitoreo de comportamientos de salud pública.

Fuente original

Título: FaceTouch: Detecting hand-to-face touch with supervised contrastive learning to assist in tracing infectious disease

Resumen: Through our respiratory system, many viruses and diseases frequently spread and pass from one person to another. Covid-19 served as an example of how crucial it is to track down and cut back on contacts to stop its spread. There is a clear gap in finding automatic methods that can detect hand-to-face contact in complex urban scenes or indoors. In this paper, we introduce a computer vision framework, called FaceTouch, based on deep learning. It comprises deep sub-models to detect humans and analyse their actions. FaceTouch seeks to detect hand-to-face touches in the wild, such as through video chats, bus footage, or CCTV feeds. Despite partial occlusion of faces, the introduced system learns to detect face touches from the RGB representation of a given scene by utilising the representation of the body gestures such as arm movement. This has been demonstrated to be useful in complex urban scenarios beyond simply identifying hand movement and its closeness to faces. Relying on Supervised Contrastive Learning, the introduced model is trained on our collected dataset, given the absence of other benchmark datasets. The framework shows a strong validation in unseen datasets which opens the door for potential deployment.

Autores: Mohamed R. Ibrahim, Terry Lyons

Última actualización: 2023-08-24 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2308.12840

Fuente PDF: https://arxiv.org/pdf/2308.12840

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares