Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones

Refinando la Detección de Interacción Humano-Objeto con el Marco SOV

Un nuevo marco mejora la eficiencia y precisión en la detección de HOI.

― 5 minilectura


El marco SOV impulsa laEl marco SOV impulsa ladetección de HOI.interacción.la precisión de los modelos deNuevo método mejora el entrenamiento y
Tabla de contenidos

La detección de interacción humano-objeto (HOI) es una parte clave de la visión por computadora, donde el objetivo es identificar cómo los humanos interactúan con los objetos en las imágenes. Los avances recientes han mejorado cómo las máquinas pueden reconocer estas interacciones, especialmente con el uso de modelos de transformadores. Sin embargo, aún hay desafíos, particularmente en cómo entrenar estos modelos de manera eficiente. Este artículo habla de un nuevo enfoque que busca mejorar la detección de HOI refinando el proceso de entrenamiento.

Antecedentes

Los métodos tradicionales para la detección de HOI dependen mucho de los marcos de Detección de Objetos. Aquí, una imagen se analiza a menudo en dos etapas diferentes: detectar objetos y luego averiguar las relaciones entre ellos. Este método ha mostrado buenos resultados, pero puede ser lento y complicado. Recientemente, han surgido métodos de una sola etapa que intentan simplificar el proceso. Estos métodos se centran en detectar y reconocer interacciones en un solo paso, pero a menudo luchan con tiempos de entrenamiento más largos y tareas más complejas.

Desafíos en la detección de HOI

Los modelos existentes enfrentan ciertos desafíos. Por un lado, los métodos de entrenamiento utilizados en la detección de objetos no siempre se traducen bien en la detección de HOI. Esto se debe a que emparejar los pares de humano-objeto detectados con las instancias de verdad fundamental es más complicado. Además, muchos modelos recientes no logran distinguir claramente entre las diferentes partes de la interacción, lo que lleva a un entrenamiento más lento y resultados menos precisos.

Método propuesto

Para abordar estos problemas, se ha introducido un nuevo marco llamado SOV. Este marco simplifica el proceso de decodificación en tres partes específicas: Detección de Sujeto, detección de objeto y reconocimiento de verbo. Al separar estas tareas, cada decodificador puede centrarse en su objetivo específico, haciendo que el proceso sea más eficiente.

Decodificadores de sujeto, objeto y verbo

Cada una de las tres partes-sujeto, objeto y verbo-trabaja junta pero de manera independiente. El decodificador de sujeto se encarga de encontrar a la persona en la imagen, mientras que el decodificador de objeto detecta el objeto relevante. Luego, el decodificador de verbo determina la acción que está ocurriendo. Esta división ayuda a aclarar el rol de cada decodificador y reduce la confusión que puede surgir cuando múltiples elementos se combinan en un solo decodificador.

El rol de la guía específica de objetivo en el entrenamiento

Un aspecto crucial de SOV es el método de entrenamiento de desruido guiado por objetivo específico (STG). Esta estrategia utiliza incrustaciones de etiquetas aprendidas para ayudar a guiar el modelo durante el entrenamiento. Las incrustaciones de etiquetas sirven como puntos de referencia que informan al modelo sobre los resultados esperados, acelerando la convergencia durante la fase de entrenamiento.

Al proporcionar una guía clara a través del método STG, el modelo puede aprender de manera más efectiva y alcanzar un nivel más alto de precisión en menos épocas de entrenamiento. Esto es una mejora significativa sobre los métodos tradicionales que a menudo requieren mucho tiempo de entrenamiento y numerosas épocas.

Proceso de inferencia

Una vez que el modelo está entrenado, la siguiente fase es la inferencia. Aquí, el modelo toma nuevas imágenes y utiliza los decodificadores de sujeto, objeto y verbo entrenados para predecir interacciones. La información específica de la etiqueta se utiliza de las incrustaciones aprendidas. Este paso permite que el modelo reconozca y clasifique interacciones en tiempo real de manera eficiente.

Resultados y rendimiento

Las pruebas realizadas en conjuntos de datos populares de detección de HOI revelaron que el marco SOV supera significativamente a los métodos existentes. El marco no solo logró una mayor precisión, sino que también requirió mucho menos tiempo de entrenamiento. Esta eficiencia es beneficiosa para aplicaciones prácticas, donde tiempos de entrenamiento más cortos pueden llevar a una implementación más rápida de soluciones.

El marco SOV mostró sus ventajas sobre modelos de una y dos etapas anteriores, demostrando que separar el proceso de decodificación en partes distintas permite un mejor enfoque en cada tarea. La estrategia de entrenamiento STG también contribuyó a una convergencia más rápida y un rendimiento mejorado durante la inferencia.

Conclusiones

La introducción del marco SOV para la detección de HOI muestra promesas para superar las limitaciones actuales en los métodos de entrenamiento. Al dividir las tareas de decodificación en tres partes claras y utilizar una estrategia de entrenamiento dirigida, SOV mejora tanto la eficiencia como la precisión. Este enfoque sienta las bases para futuros avances en la detección de HOI. Hay potencial para incorporar otras tecnologías, como el conocimiento de modelos de lenguaje, para mejorar aún más este marco.

A medida que el campo avanza, la exploración continua de estas y otras estrategias innovadoras será esencial para avanzar en la detección de interacción humano-objeto. El objetivo sigue siendo hacer que estos sistemas sean más precisos y rápidos, llevando en última instancia a mejores aplicaciones en situaciones del mundo real donde entender las Interacciones humano-objeto es crítico.

Fuente original

Título: Focusing on what to decode and what to train: SOV Decoding with Specific Target Guided DeNoising and Vision Language Advisor

Resumen: Recent transformer-based methods achieve notable gains in the Human-object Interaction Detection (HOID) task by leveraging the detection of DETR and the prior knowledge of Vision-Language Model (VLM). However, these methods suffer from extended training times and complex optimization due to the entanglement of object detection and HOI recognition during the decoding process. Especially, the query embeddings used to predict both labels and boxes suffer from ambiguous representations, and the gap between the prediction of HOI labels and verb labels is not considered. To address these challenges, we introduce SOV-STG-VLA with three key components: Subject-Object-Verb (SOV) decoding, Specific Target Guided (STG) denoising, and a Vision-Language Advisor (VLA). Our SOV decoders disentangle object detection and verb recognition with a novel interaction region representation. The STG denoising strategy learns label embeddings with ground-truth information to guide the training and inference. Our SOV-STG achieves a fast convergence speed and high accuracy and builds a foundation for the VLA to incorporate the prior knowledge of the VLM. We introduce a vision advisor decoder to fuse both the interaction region information and the VLM's vision knowledge and a Verb-HOI prediction bridge to promote interaction representation learning. Our VLA notably improves our SOV-STG and achieves SOTA performance with one-sixth of training epochs compared to recent SOTA. Code and models are available at https://github.com/cjw2021/SOV-STG-VLA

Autores: Junwen Chen, Yingcheng Wang, Keiji Yanai

Última actualización: 2024-12-22 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2307.02291

Fuente PDF: https://arxiv.org/pdf/2307.02291

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares