Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones# Inteligencia artificial

Avances en la Segmentación de Instancias de Video de Vocablo Abierto

Nuevo enfoque permite el reconocimiento de objetos no visibles en el análisis de video.

― 7 minilectura


Ruptura de VIS deRuptura de VIS deVocabulario Abiertoen video.reconocimiento y seguimiento de objetosNuevos métodos mejoran el
Tabla de contenidos

La segmentación de instancias de video (VIS) es una tarea que se centra en identificar y rastrear objetos en videos. Tradicionalmente, VIS solo puede trabajar con un conjunto fijo de categorías que ha visto durante su fase de entrenamiento. Esto hace que sea difícil para estos modelos reconocer nuevas categorías que no se han visto en videos del mundo real. Este artículo presenta un nuevo enfoque llamado segmentación de instancias de video de vocabulario abierto, que permite reconocer y rastrear objetos de una lista más amplia de categorías, incluidas aquellas que no están presentes durante el entrenamiento.

La necesidad de VIS de vocabulario abierto

En aplicaciones del mundo real, a menudo aparecen objetos que el modelo no ha entrenado. El método tradicional de VIS solo tiene problemas con estas instancias porque solo puede clasificar categorías conocidas. Otros métodos de rastreo intentan seguir todos los objetos visibles, pero no tienen la capacidad de categorizarlos. Al introducir un enfoque de vocabulario abierto para VIS, el objetivo es proporcionar una solución que pueda segmentar, rastrear y clasificar cualquier objeto que pueda aparecer en un video, independientemente de si se vio durante el entrenamiento.

Contribuciones del nuevo enfoque

1. Segmentación de instancias de video de vocabulario abierto

Esta nueva tarea de VIS de vocabulario abierto tiene como objetivo realizar tres acciones: segmentar, rastrear y clasificar objetos de un rango más amplio de categorías. Esto incluye tanto categorías en las que el modelo fue entrenado como nuevas categorías que no ha visto antes. Esta flexibilidad es crucial para las aplicaciones del mundo real.

2. Creación de un nuevo conjunto de datos

Para probar eficazmente el nuevo enfoque, se ha creado un nuevo conjunto de datos llamado segmentación de instancias de video de gran vocabulario (LV-VIS). Este conjunto de datos contiene ejemplos bien anotados de objetos de 1,196 categorías diferentes, que es significativamente mayor que lo que ofrecen los conjuntos de datos existentes. El gran número de categorías ayuda a que la nueva tarea sea significativa porque proporciona varios ejemplos para que el modelo aprenda.

3. Arquitectura avanzada del modelo

Se propone una arquitectura de modelo eficiente llamada OV2Seg para llevar a cabo VIS de vocabulario abierto. Esta arquitectura permite un rendimiento en tiempo real mientras segmenta, rastrea y clasifica objetos simultáneamente. El diseño se centra en procesar información de manera efectiva a lo largo del tiempo, lo que permite que el modelo retenga conocimiento sobre objetos a través de múltiples fotogramas.

Limitaciones de los métodos tradicionales

Los métodos tradicionales de VIS enfrentan un desafío significativo cuando aparecen nuevas categorías que no han sido entrenadas. Por ejemplo, si un modelo entrenado en categorías comunes como "gato" o "perro" intenta identificar un "morsa", fallará. Otros enfoques, como el rastreo de mundo abierto, ayudan a rastrear objetos pero no ofrecen la capacidad de clasificarlos. Esto limita su aplicabilidad para tareas que requieren entender el contexto del video.

La necesidad de un conjunto de datos diverso

Los conjuntos de datos actuales como Youtube-VIS, OVIS y UVO se quedan cortos porque presentan solo un puñado de categorías y no representan suficientemente la variedad de objetos que comúnmente se encuentran en videos. El nuevo conjunto de datos LV-VIS aborda esta brecha al incorporar una amplia gama de categorías, asegurando que el modelo esté expuesto a una variedad más realista de objetos.

Descripción general del conjunto de datos LV-VIS

El conjunto de datos LV-VIS comprende 4,828 videos y más de 544,000 instancias de objetos anotados, cubriendo 1,196 categorías. Es más grande que los conjuntos de datos existentes, permitiendo una mejor evaluación de la capacidad de generalización de modelos como OV2Seg. Una proporción significativa de los objetos pertenece a categorías que no están incluidas en conjuntos de datos comúnmente usados, lo que enfatiza su valor.

El diseño de OV2Seg

OV2Seg está diseñado para simplificar la complejidad de modelos anteriores usando un enfoque más directo que se centra en la conciencia a largo plazo. Así es como funciona:

  1. Propuesta de objeto: El modelo comienza proponiendo y segmentando objetos usando consultas generales que no están vinculadas a categorías específicas.
  2. Rastreo de memoria: OV2Seg emplea consultas de memoria que rastrean objetos a lo largo del tiempo, incluso si desaparecen o se vuelven difíciles de ver.
  3. Clasificación: Cuando se trata de clasificar los objetos, el modelo puede tomar nombres de categorías como entrada y determinar la clasificación en función de las características de los objetos y la información acumulada a lo largo del tiempo.

Evaluación de OV2Seg

OV2Seg ha sido probado en el conjunto de datos LV-VIS y comparado con varios modelos de referencia. Los resultados muestran que OV2Seg tiene un rendimiento excepcional, especialmente en categorías novedosas que no formaban parte de los datos de entrenamiento. Esto indica que tiene una fuerte capacidad de generalización, lo que le permite adaptarse y reconocer nuevas categorías de manera efectiva.

Importancia del rastreo a largo plazo

El rastreo a largo plazo es crucial para el análisis de videos, ya que los objetos pueden aparecer y desaparecer a lo largo de la grabación. Los métodos de rastreo tradicionales a menudo fallan en situaciones donde los objetos están ocultos o cambian de posición significativamente. Al usar consultas de memoria, OV2Seg puede mantener la conciencia de los objetos incluso en condiciones desafiantes, lo que lleva a un rastreo más confiable.

Comparación con otros métodos

El artículo compara OV2Seg contra modelos tradicionales, mostrando que supera a estos en velocidad y precisión. El enfoque independiente de la clase permite procesar información de manera más eficiente, reduciendo significativamente el tiempo de inferencia en comparación con métodos dependientes de la clase que requieren un manejo más complejo de cada categoría.

Resultados en conjuntos de datos existentes

Cuando se evaluó OV2Seg en otros conjuntos de datos de segmentación de instancias de video sin ningún ajuste, tuvo un buen desempeño, mostrando fuertes capacidades para la Generalización de cero disparos. Esto significa que pudo identificar y clasificar correctamente objetos de categorías novedosas incluso sin un entrenamiento específico en esas instancias.

Aplicaciones prácticas

La capacidad de rastrear y clasificar objetos de una amplia variedad de categorías abre nuevas posibilidades para el análisis de videos. Por ejemplo, puede ser beneficioso para la creación de contenido de video, vigilancia automatizada e incluso en tecnología de conducción autónoma donde entender el contexto de varios objetos es esencial.

Conclusión

Este nuevo enfoque a la segmentación de instancias de video ofrece oportunidades emocionantes al romper las limitaciones de los métodos tradicionales que están confinados a un conjunto fijo de categorías conocidas. La introducción de la segmentación de instancias de video de vocabulario abierto, la formación de un conjunto de datos diverso y el desarrollo de una poderosa arquitectura de modelo establecen un nuevo estándar en el campo. Con la capacidad de reconocer y clasificar objetos de un conjunto abierto de categorías, este trabajo empuja los límites de lo que es posible en el análisis de videos.

Fuente original

Título: Towards Open-Vocabulary Video Instance Segmentation

Resumen: Video Instance Segmentation (VIS) aims at segmenting and categorizing objects in videos from a closed set of training categories, lacking the generalization ability to handle novel categories in real-world videos. To address this limitation, we make the following three contributions. First, we introduce the novel task of Open-Vocabulary Video Instance Segmentation, which aims to simultaneously segment, track, and classify objects in videos from open-set categories, including novel categories unseen during training. Second, to benchmark Open-Vocabulary VIS, we collect a Large-Vocabulary Video Instance Segmentation dataset (LV-VIS), that contains well-annotated objects from 1,196 diverse categories, significantly surpassing the category size of existing datasets by more than one order of magnitude. Third, we propose an efficient Memory-Induced Transformer architecture, OV2Seg, to first achieve Open-Vocabulary VIS in an end-to-end manner with near real-time inference speed. Extensive experiments on LV-VIS and four existing VIS datasets demonstrate the strong zero-shot generalization ability of OV2Seg on novel categories. The dataset and code are released here https://github.com/haochenheheda/LVVIS.

Autores: Haochen Wang, Cilin Yan, Shuai Wang, Xiaolong Jiang, XU Tang, Yao Hu, Weidi Xie, Efstratios Gavves

Última actualización: 2023-08-06 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2304.01715

Fuente PDF: https://arxiv.org/pdf/2304.01715

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares