Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Avances en la Reidentificación de Personas con Diff-ID

Diff-ID mejora el reconocimiento de personas generando imágenes de entrenamiento diversas.

― 9 minilectura


Diff-ID: Método de Re-IDDiff-ID: Método de Re-IDde Nueva Generaciónreidentificación de personas.Nuevo método mejora la precisión en la
Tabla de contenidos

La Reidentificación de personas (Re-ID) es un proceso en visión por computadora que ayuda a reconocer individuos a través de diferentes cámaras. Esto es especialmente útil en áreas como la seguridad y la robótica. Sin embargo, Re-ID enfrenta desafíos significativos debido a las diferencias en las posturas humanas y los ángulos desde los que se toman las imágenes. Estos factores pueden cambiar cómo se ve una persona en las fotos, haciendo que sea difícil para los modelos identificarlos de manera consistente.

Un problema principal es que la mayoría de los datasets de Re-ID no capturan una gran variedad de posturas y ángulos. Desarrollar un modelo que pueda reconocer con precisión a una persona, a pesar de estas variaciones, es bastante complicado. Las técnicas actuales a menudo intentan aumentar la variedad de datos de entrenamiento a través de métodos llamados Aumento de Datos. Estos métodos cambian imágenes existentes para crear nuevas, pero no abordan efectivamente el sesgo de postura porque principalmente utilizan posturas que ya están presentes en los datos.

Este artículo presenta un nuevo método llamado Diff-ID. Este enfoque tiene como objetivo crear un conjunto de datos de entrenamiento más diverso generando imágenes de personas en diferentes posturas y Ángulos de Cámara que no están presentes en los datos originales. Al usar modelos avanzados llamados Modelos de Difusión preentrenados, podemos proporcionar una gama más amplia de datos de entrenamiento, mejorando en última instancia el rendimiento de los modelos de Re-ID.

Antecedentes

En la reidentificación de personas, el objetivo es rastrear individuos a través de imágenes tomadas desde varias cámaras que pueden no superponerse en sus campos de visión. Esta tarea es particularmente difícil porque las imágenes de la misma persona pueden verse muy diferentes dependiendo de su postura o el ángulo en el que se tomó la foto. Para abordar efectivamente este problema, es esencial tener conjuntos de datos de entrenamiento ricos que capturen una amplia gama de posturas corporales y ángulos de cámara.

Sin embargo, muchos de los conjuntos de datos actualmente disponibles son limitados. A menudo, solo incluyen un puñado de ángulos de cámara y posturas, lo que restringe la capacidad del modelo para generalizar su aprendizaje a nuevas situaciones. Además, etiquetar cada instancia a través de numerosas cámaras es muy laborioso y desafiante, lo que resulta en conjuntos de datos que no representan completamente las variaciones vistas en escenarios de la vida real.

Para combatir estos desafíos, se han realizado esfuerzos previos para mejorar los datos de entrenamiento a través de técnicas de aumento. Los primeros métodos involucraron ajustes simples, como cambiar el tamaño de las imágenes o invertirlas horizontalmente. Técnicas más recientes han utilizado modelos avanzados como Redes Generativas Antagónicas (GANs) para crear nuevas imágenes. Sin embargo, estos modelos a menudo dependen de posturas existentes, lo que limita su efectividad para abordar el sesgo de postura.

En este trabajo, proponemos un nuevo método llamado Diff-ID, que utiliza un modelo de difusión para generar una mayor variedad de posturas y puntos de vista. Esto nos permite llenar los vacíos en los conjuntos de datos existentes, mejorando así la capacidad de generalización y robustez del modelo ante variaciones causadas por diferentes posturas y ángulos de cámara.

El método Diff-ID

Diff-ID funciona capturando posturas y puntos de vista de cámara que no están bien representados en el conjunto de datos de entrenamiento original. Utiliza un modelo especializado llamado Modelo SMPL para recopilar información sobre posturas humanas y profundidad, una forma indirecta de entender cómo está posicionada la cámara en relación a la persona.

La idea clave es combinar la postura humana, el punto de vista de la cámara y la identidad de una imagen de referencia. Al hacerlo, podemos generar imágenes realistas que presentan a la misma persona en varias posturas y desde diferentes ángulos de cámara. Esto ayuda a crear un conjunto de datos de entrenamiento más diverso que puede ayudar a los sistemas de Re-ID a aprender mejor y de manera más precisa.

Estrategia de aumento de datos

El núcleo de nuestro enfoque implica una estrategia de aumento de datos en dos pasos. Primero, recopilamos posturas de varias fuentes externas, como videos de baile, que introducen una gama más amplia de movimientos corporales. Luego, generamos imágenes usando estas posturas y seleccionamos ángulos de cámara de una distribución uniforme a través de todo el rango, en lugar de solo aquellos presentes en los datos de entrenamiento.

La combinación de estos dos pasos nos permite crear un conjunto de datos más rico para entrenar modelos de Re-ID. Minimiza las variaciones en las apariencias causadas por la postura humana o el punto de vista de la cámara, ayudando a los modelos a generalizar mejor al identificar a individuos.

Aprovechando modelos de difusión preentrenados

Para ejecutar nuestra estrategia de aumento, aprovechamos las capacidades de modelos de difusión estables. Estos modelos han sido entrenados en vastos conjuntos de datos, lo que les permite generar imágenes de alta calidad con un realismo impresionante. Específicamente, hacemos uso de la información de profundidad proporcionada por el modelo SMPL junto con la información de postura para crear imágenes convincentes que reflejen con precisión la identidad de la persona en la imagen de referencia.

El proceso consiste en renderizar las formas corporales usando el modelo SMPL, que genera esqueletos y mapas que indican la profundidad y los detalles de la superficie. Estas condiciones se ingresan luego al modelo Diff-ID, que utiliza estos elementos para producir imágenes con posturas y puntos de vista variados. Al mantener la consistencia de la identidad, podemos asegurarnos de que la persona en la imagen generada se parezca a la imagen de referencia.

Configuración experimental

Realizamos experimentos en dos conjuntos de datos de Re-ID de personas ampliamente utilizados, los conjuntos Market-1501 y DukeMTMC-reID, para validar nuestro método. Para evaluar la efectividad, empleamos métricas estándar que incluyen características de coincidencia acumulativa y precisión media promedio. Cada experimento involucró entrenar el modelo de Re-ID en conjuntos de datos aumentados, que incluían nuestras imágenes generadas combinadas con el conjunto de datos original.

Para crear nuestros conjuntos de datos aumentados, generamos un número significativo de imágenes utilizando Diff-ID e incluimos estas en nuestros conjuntos de entrenamiento. Por ejemplo, en DukeMTMC-reID, agregamos aproximadamente 49,000 imágenes generadas, lo que resultó en un total de 30,522 imágenes de entrenamiento. Para Market-1501, agregamos alrededor de 45,500 imágenes, llevando el total a 26,936. Este enfoque nos permitió aumentar significativamente la diversidad y cantidad de datos de entrenamiento.

Resultados y discusión

Los resultados de nuestros experimentos indican que la estrategia de aumento Diff-ID mejora significativamente el rendimiento de los modelos de Re-ID. En nuestras evaluaciones, observamos ganancias notables en la precisión de identificación al probar con conjuntos de datos aumentados en comparación con aquellos sin aumento. Nuestros hallazgos destacan cómo abordar el sesgo de postura y de punto de vista mejora efectivamente las capacidades de aprendizaje de los sistemas de Re-ID.

Ganancias de rendimiento del aumento de datos

Comparamos nuestro método con técnicas tradicionales de aumento de datos. Nuestros resultados mostraron que Diff-ID superó enfoques anteriores, particularmente en conjuntos de datos donde el sesgo del punto de vista de la cámara era un problema más considerable. Las mejoras fueron evidentes, mostrando la necesidad de estrategias de aumento integrales que aborden el sesgo de manera directa.

Los estudios de ablación realizados también demostraron la importancia individual del aumento de postura humana y punto de vista de cámara en la mejora del rendimiento general de los modelos. Cada tipo de aumento contribuyó positivamente, subrayando sus roles complementarios en la resolución de los desafíos enfrentados en las tareas de Re-ID.

Comparación visual de datos generados

Para demostrar aún más las capacidades de nuestro método, proporcionamos comparaciones visuales de las imágenes generadas frente a las producidas por métodos basados en GAN. Nuestro enfoque generó de manera consistente imágenes más realistas, manteniendo las identidades de los individuos de referencia mientras producía variaciones en posturas y ángulos de cámara.

Esta progresión hacia la generación de imágenes de alta fidelidad destaca las ventajas de utilizar modelos preentrenados de gran tamaño, que poseen una gran cantidad de conocimiento general, lo que permite manejar mejor las complejidades visuales. Nuestras imágenes generadas no solo capturaron diferentes posturas, sino que lo hicieron asegurando que las características de identidad permanecieran intactas.

Conclusión

En resumen, presentamos Diff-ID, un nuevo enfoque para el aumento de datos en tareas de reidentificación de personas. Al utilizar efectivamente modelos de difusión preentrenados y centrarnos en diversificar las distribuciones de postura humana y punto de vista de cámara, creamos una base sólida para mejorar el rendimiento de Re-ID. Nuestros resultados experimentales demuestran que introducir imágenes realistas de posturas y ángulos variados puede beneficiar enormemente el entrenamiento de modelos de Re-ID.

El éxito de nuestro método reafirma la necesidad de estrategias innovadoras que aborden los sesgos fundamentales en los conjuntos de datos existentes, allanando el camino para sistemas de reconocimiento de personas más precisos y confiables. A medida que el campo sigue creciendo, los principios establecidos por Diff-ID pueden inspirar futuras investigaciones y aplicaciones, llevando en última instancia a una mejor tecnología para identificar individuos en diversos entornos.

Fuente original

Título: Pose-dIVE: Pose-Diversified Augmentation with Diffusion Model for Person Re-Identification

Resumen: Person re-identification (Re-ID) often faces challenges due to variations in human poses and camera viewpoints, which significantly affect the appearance of individuals across images. Existing datasets frequently lack diversity and scalability in these aspects, hindering the generalization of Re-ID models to new camera systems. We propose Pose-dIVE, a novel data augmentation approach that incorporates sparse and underrepresented human pose and camera viewpoint examples into the training data, addressing the limited diversity in the original training data distribution. Our objective is to augment the training dataset to enable existing Re-ID models to learn features unbiased by human pose and camera viewpoint variations. To achieve this, we leverage the knowledge of pre-trained large-scale diffusion models. By conditioning the diffusion model on both the human pose and camera viewpoint concurrently through the SMPL model, we generate training data with diverse human poses and camera viewpoints. Experimental results demonstrate the effectiveness of our method in addressing human pose bias and enhancing the generalizability of Re-ID models compared to other data augmentation-based Re-ID approaches.

Autores: Inès Hyeonsu Kim, JoungBin Lee, Woojeong Jin, Soowon Son, Kyusun Cho, Junyoung Seo, Min-Seop Kwak, Seokju Cho, JeongYeol Baek, Byeongwon Lee, Seungryong Kim

Última actualización: 2024-10-15 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2406.16042

Fuente PDF: https://arxiv.org/pdf/2406.16042

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares