Lograr reconocimiento de peatones en tiempo real en dispositivos de bajo consumo

Tabla de contenidos

Fuente original
Enlaces de referencia

El reconocimiento de peatones es importante para muchas cosas, como seguridad, coches autónomos e incluso en fotos aéreas. Es especialmente crucial para dispositivos móviles donde la potencia de procesamiento es limitada. Esta tarea puede ser complicada por las restricciones de los dispositivos pequeños. En este artículo, veremos cómo lograr un reconocimiento de peatones en tiempo real en computadoras pequeñas con poco poder de procesamiento, buscando hacerlo lo más rápido posible.

Proponemos tres métodos para ayudar con esta tarea en computadoras pequeñas. El primer método usa técnicas mejoradas basadas en Patrones Binarios Locales (LBP) y un clasificador llamado AdaBoost. El segundo método refina el Histograma de Gradientes Orientados (HOG) y utiliza una máquina de soporte vectorial (SVM). El tercer método acelera las Redes Neuronales Convolucionales (CNN). Nuestros resultados muestran que los tres métodos pueden reconocer peatones en tiempo real con más del 95% de precisión y pueden procesar más de 5 fotogramas por segundo, incluso en sistemas compactos equipados con un CPU Intel i5 de 1.8 GHz.

La visión por computadora, que ayuda a las máquinas a "ver", se utiliza ahora en muchos campos, incluyendo medicina, militar y entretenimiento. Reconocer personas en imágenes y videos es particularmente importante, pero también bastante desafiante. Esta tarea afecta varias áreas de la vida, desde sistemas de seguridad hasta hogares inteligentes e incluso robots que ayudan a residentes ancianos.

Para dispositivos móviles, hay problemas específicos que dificultan el reconocimiento de peatones. Estos dispositivos a menudo tienen potencia y espacio limitados para hardware. Por ejemplo, los drones necesitan encajar baterías pequeñas y computadoras compactas, lo que aumenta el desafío de reconocer peatones en tiempo real.

Cuando hablamos de reconocer peatones, nos centramos en personas que están de pie o caminando. La complejidad surge de lo diferente que puede verse una persona en varias imágenes. Factores como la pose de una persona, su ropa, obstrucciones e incluso la iluminación pueden cambiar cómo aparecen en una imagen. Un fondo concurrido también puede confundir el proceso de reconocimiento. Esta diversidad en cómo se ven las personas hace que la tarea de reconocer peatones sea complicada en dispositivos con poder de procesamiento limitado.

Aunque las redes neuronales convolucionales (CNN) se han vuelto populares para el reconocimiento de objetos, requieren un considerable poder de procesamiento. Muchos estudios existentes han intentado acelerar el reconocimiento de peatones, pero la mayoría de estos métodos dependen de potentes unidades de procesamiento gráfico (GPU) en lugar de CPUs normales. Nuestro trabajo se centra en cómo implementar el reconocimiento de peatones en sistemas más pequeños y menos potentes.

En nuestro estudio, nos enfocamos en tres métodos:

Características LBP con AdaBoost: Mejoramos la extracción de características con LBP, que es bueno para capturar formas y bordes, combinado con AdaBoost, que es un clasificador rápido. Este método busca acelerar el proceso de reconocimiento manteniendo la precisión.
Características HOG con SVM: La técnica HOG captura los contornos de los objetos, pero las implementaciones tradicionales pueden ser lentas. Nos enfocamos en optimizar este proceso y combinarlo con SVM, que proporciona buena velocidad y precisión de reconocimiento.
Implementación rápida de CNN: Investigamos una versión rápida de las CNN para aplicarlas en nuestro contexto, mejorando métodos que normalmente funcionan lento en dispositivos compactos.

Para probar estos métodos, definimos dos condiciones principales de rendimiento: el sistema debe funcionar en tiempo real, procesando imágenes a un mínimo de 5 fotogramas por segundo, y debe mantener un nivel de precisión por encima del 95%.

A través de nuestra investigación, encontramos que muchas técnicas existentes, aunque altamente precisas, requieren recursos significativos, típicamente solo disponibles en GPUs. Algunas soluciones interesantes están diseñadas para funcionar en hardware específico hecho para tareas como la detección de objetos en tiempo real, pero no son adecuadas para dispositivos generales.

Seleccionamos nuestro hardware con cuidado, eligiendo un microcomputador Intel NUC compacto. Este dispositivo logra un balance entre tamaño, potencia y precio, haciéndolo adecuado para nuestras necesidades. Tiene un procesador Intel Core i5 de 1.80 GHz, que es suficientemente bueno para nuestras pruebas y permite portabilidad entre varios sistemas.

Los conjuntos de datos utilizados para entrenar y probar nuestros métodos incluyen el conjunto de datos de peatones INRIA y los conjuntos de datos de clases de objetos visuales (VOC), que contienen una variedad de imágenes de peatones desde diferentes ángulos y poses. Combinamos estos conjuntos de datos para crear un sistema robusto para probar el reconocimiento de peatones.

Al discutir nuestros métodos, destacamos primero las características LBP y AdaBoost. Históricamente, LBP se calcula comparando píxeles uno al lado del otro. Adoptamos una versión más eficiente que acelera este proceso significativamente mientras sigue siendo efectiva para reconocer peatones.

A continuación, examinamos HOG y SVM. El método HOG implica calcular gradientes entre píxeles, lo que puede ser lento, pero optimizamos la caché y preprocesamos los datos para aumentar la velocidad. Esto involucró ajustar varios parámetros para lograr un buen balance entre velocidad y precisión.

Para las CNN, transformamos nuestros datos en imágenes en escala de grises. Esta simplificación reduce el procesamiento necesario y ayuda a acelerar el reconocimiento. Sin embargo, también notamos que los métodos existentes tenían algunas limitaciones, especialmente en cómo redimensionan las imágenes. Observamos cómo diferentes tamaños de muestras afectan el reconocimiento y notamos la necesidad de un enfoque estándar.

En nuestra sección de resultados, nos centramos en dos indicadores principales de rendimiento: falsos positivos por imagen (FPPI) y la tasa de omisión. Estas métricas nos ayudan a evaluar la precisión de nuestros métodos de detección de peatones. El objetivo es minimizar los falsos positivos y las omisiones para una detección de peatones efectiva.

Después de realizar nuestros experimentos, nos dimos cuenta de que el método LBP con AdaBoost tuvo el mejor rendimiento general. Esto se debió principalmente a su rápida extracción de características y clasificación eficiente. El modelo CNN, aunque más lento, proporcionó la mayor precisión, confirmando la efectividad de los enfoques de aprendizaje profundo.

Mirando hacia adelante, tenemos varias ideas para futuras mejoras. Planeamos optimizar aún más los procesos, especialmente para los métodos HOG y SVM, enfocándonos en reducir cálculos redundantes. Al identificar las características más significativas para el reconocimiento de peatones, creemos que podemos acelerar la velocidad mientras mantenemos la precisión.

En resumen, nuestro trabajo demuestra con éxito que el reconocimiento de peatones en tiempo real es posible en dispositivos pequeños y de bajo poder, utilizando tres métodos diferentes. Cada método ha sido diseñado para la eficiencia, permitiendo que funcionen efectivamente en escenarios en tiempo real. A medida que avanzamos, planeamos profundizar en la mejora de estas técnicas y explorar otras formas de mejorar su rendimiento mientras siguen siendo aplicables a varios dispositivos móviles.

Lograr reconocimiento de peatones en tiempo real en dispositivos de bajo consumo

Este estudio presenta métodos para el reconocimiento de peatones en tiempo real usando poder de procesamiento limitado.

Enlaces de referencia

Temas referenciados