Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans la détection de petits objets vidéo

Le dataset XS-VID et la méthode YOLOFT améliorent la précision de détection des petits objets.

― 12 min lire


Percée dans la détectionPercée dans la détectionde petits objetsobjets dans les vidéos.améliorent la détection de petitsNouveau jeu de données et méthode
Table des matières

La détection d'objets dans des petites vidéos (SVOD) est un domaine important de la vision par ordinateur qui se concentre sur la recherche de Petits objets dans des séquences vidéo. C’est super utile dans des secteurs comme la sécurité publique et la surveillance, où repérer rapidement des objets peut être crucial. Mais bon, les datasets actuels pour la détection de petits objets sont limités et ont plein de soucis, comme un manque de petits objets, peu de catégories d'objets et pas assez de scènes différentes. Du coup, ça complique le développement de méthodes de détection efficaces.

Pour combler ce vide, on a créé un nouveau dataset appelé XS-VID. Ce dataset est composé de vidéos aériennes prises à divers endroits et moments. Il inclut huit catégories d'objets importants. XS-VID collecte des données sur trois types de petits objets selon leur taille en pixels : extrêmement petits, relativement petits et généralement petits. Le dataset offre une gamme plus large d'objets et de scènes pour aider les chercheurs et les développeurs à améliorer leurs techniques de détection.

Dans nos tests, on a comparé les méthodes existantes de détection de petits objets en utilisant le dataset XS-VID et le dataset public VisDrone2019VID. On a constaté que beaucoup de méthodes actuelles avaient du mal à détecter des petits objets et ne fonctionnaient pas bien par rapport aux méthodes de détection d'objets générales. Pour remédier aux lacunes des techniques existantes, on a introduit une nouvelle méthode de détection appelée YOLOFT. Cette méthode améliore la façon dont les caractéristiques locales sont liées et intègre des caractéristiques de mouvement dans le temps, ce qui améliore la précision de détection des petits objets.

L'Importance de la Détection d'Objets dans les Petites Vidéos

La SVOD est une partie significative de la vision par ordinateur et est devenue un sujet chaud tant dans la recherche que dans l'industrie. Dans des situations comme la sécurité publique et la surveillance aérienne, trouver et identifier rapidement des objets est essentiel. Malgré les progrès réalisés dans la détection d'objets vidéo ces dernières années, le défi de détecter des petits objets dans les vidéos reste encore peu exploré. Une des raisons principales est le manque de datasets vidéo conçus spécifiquement pour la détection de petits objets. Ce manque de ressources freine à la fois les processus de formation et d'évaluation, ce qui mène à moins de méthodes efficaces.

Les datasets de détection d'objets vidéo actuels échouent souvent à inclure des tailles d'objets suffisamment petites, offrent des catégories d'objets limitées et manquent de diversité de scènes. Par exemple, dans des datasets comme ImageNetVID, VisDrone2019VID et UAVTD, la plupart des objets ont des zones de pixels plus grandes, ce qui rend difficile l'évaluation précise des méthodes de détection de petits objets. Vu la situation, il y a un besoin urgent d'un dataset qui inclut plusieurs petits objets, une grande variété de scènes et couvre plusieurs catégories d'objets pour faire avancer le domaine de la SVOD.

Le Dataset XS-VID

Pour adresser ces problèmes, on a créé le dataset XS-VID. Le dataset inclut 12 000 images et 38 séquences vidéo moyennes à longues qui capturent différents types de scènes, comme des rivières, des forêts, des gratte-ciels et des routes, à différents moments de la journée et de la nuit. Les petits objets dans XS-VID ne sont pas limités à une taille fixe mais couvrent plutôt différentes tailles de petits objets. Plus spécifiquement, le dataset contient un total de 49 000 objets extrêmement petits, 94 000 objets relativement petits, 36 000 objets généralement petits et 72 000 objets de taille normale. Cette distribution offre une vue globale des tailles de petits objets, comblant ainsi un vide critique dans les données disponibles.

En plus du dataset proposé, on a souligné les défis existants liés à la détection de petits objets dans les vidéos. Les principaux défis incluent :

  1. Confusion de Fond : Le fond peut avoir des couleurs et textures similaires à l'objet, rendant difficile son repérage.
  2. Mauvaise Classification Facile : Les petits objets manquent souvent de caractéristiques distinctives, ce qui conduit à des identifications incorrectes par le système de détection.
  3. Distorsion de Texture : Comme les petits objets ont un espace pixel limité, leurs caractéristiques de texture peuvent perdre en qualité.

À cause du manque de datasets axés sur les objets extrêmement petits, la recherche sur les méthodes pour détecter de tels objets à travers différentes scènes et catégories est plutôt limitée. Utiliser des méthodes à image unique ou des approches traditionnelles de détection d'objets vidéo ne donne pas de résultats satisfaisants, surtout parce qu'elles n’utilisent pas les caractéristiques temporelles ou ne sont pas conçues pour gérer des objets extrêmement petits.

En réponse à ces problèmes, on a proposé la méthode YOLOFT. Cette méthode combine le cadre de détection YOLOv8 avec des techniques de flux optique pour améliorer la performance de détection. À travers nos expériences détaillées sur XS-VID et VisDrone2019VID, on a constaté que YOLOFT surclassait les méthodes existantes.

Contributions Clés de XS-VID

Nos principales contributions à travers le dataset XS-VID sont :

  1. On a développé le dataset XS-VID, qui inclut la gamme la plus étendue de tailles de petits objets et offre le nombre le plus élevé d'objets extrêmement petits et de types de scènes variés, comblant efficacement le vide de données existant.
  2. On a réalisé des expériences approfondies pour mettre en évidence la performance de diverses méthodes avancées de détection d'objets sur XS-VID. Les résultats ont montré que ces méthodes échouaient souvent à cause d'un manque de focus sur des objets extrêmement petits dans les datasets précédents.
  3. On a introduit YOLOFT, une méthode de détection d'objets dans de petites vidéos qui booste significativement la précision et la stabilité en améliorant les associations de caractéristiques locales et en intégrant des caractéristiques de mouvement. Cette méthode peut également servir de référence pour de futures recherches.

Défis de la Détection d'Objets dans des Petites Vidéos

Détecter des petits objets dans des vidéos présente plusieurs défis. Ces défis peuvent impacter l’efficacité des systèmes de détection :

  1. Confusion de Fond : Quand le fond est texturé de manière similaire à l'objet, il peut être difficile de distinguer l'objet du fond. Cette confusion entraîne des Détections manquées à mesure que l'algorithme peine à identifier l'objet.

  2. Mauvaise Classification : Les petits objets ne fournissent pas toujours des textures ou des formes claires, ce qui peut amener le système de détection à les identifier incorrectement. Quand l'objet manque de caractéristiques visuelles distinctes, cela augmente les chances de classifications incorrectes.

  3. Textures Distordues : Les petits objets peuvent perdre leurs caractéristiques distinctes à cause de leur espace pixel limité. En conséquence, l'algorithme peut ne pas reconnaître efficacement ces objets, ce qui entraîne une baisse de la précision de détection.

Le manque de datasets axés sur les objets extrêmement petits limite la recherche sur les moyens de les détecter à travers différentes scènes et catégories. Utiliser des techniques conçues pour des objets plus gros n'apporte pas de résultats fiables.

Le Processus de Collecte de Données

Pour créer le dataset XS-VID, on a utilisé un drone DJI Air3 volant à des altitudes de 70 à 90 mètres. Le drone a enregistré des séquences vidéo tout en se déplaçant à des vitesses de 5 à 10 mètres par seconde. On a capturé des vidéos dans des scènes variées, comme des rues urbaines animées, des routes, et des environnements naturels, à différents moments de la journée et dans diverses conditions climatiques.

Des séquences vidéo de haute définition ont été produites à partir des images collectées, chacune avec une fréquence d’images de 25 images par seconde. À partir de cette sélection, on a choisi 38 vidéos qui avaient une riche variété d'objets et de scènes pour former le dataset XS-VID.

Processus d'Annotation

Annoter le dataset a été un processus détaillé. Chaque objet dans les vidéos a été étiqueté, et les étapes suivantes ont été prises :

  1. Un détecteur d'objets général a d'abord été utilisé pour des annotations préliminaires.
  2. Les annotations ont été manuellement affinées toutes les 5 à 10 images.
  3. Un ID unique a été attribué aux objets identifiés à travers les images.
  4. Chaque image a été revue pour précision, y compris des ajustements des boîtes d’annotation et vérification de la visibilité de l'objet.
  5. Plusieurs annotateurs ont vérifié les données pour garantir la cohérence et la précision.

L'ensemble du processus d'annotation a nécessité environ 4 000 heures de travail, assurant un dataset de haute qualité.

Assurance Qualité dans le Dataset

Pour garantir la fiabilité du dataset XS-VID, chaque vidéo a été annotée par au moins deux relecteurs différents. Plusieurs rondes de révisions ont été effectuées pour évaluer la précision des annotations. On a trouvé que le chevauchement entre les annotations des relecteurs indépendants était élevé, indiquant que nos méthodes étaient efficaces.

Malgré ces efforts, il y a encore quelques limites. Des erreurs humaines peuvent survenir durant le processus d'annotation, et certains objets en mouvement peuvent avoir des contours flous, entraînant des inexactitudes. Bien que le dataset XS-VID offre des informations précieuses, le nombre d'objets et d'images peut encore être considéré comme modéré.

YOLOFT : Un Nouveau Cadre de Détection

La méthode YOLOFT est notre réponse aux défis rencontrés dans la SVOD. Elle est construite sur le cadre de YOLOv8 et inclut un nouveau composant appelé le module Multi-Scale Spatio-Temporal Flow (MSTF). Ce module est conçu pour améliorer la façon dont les caractéristiques spatio-temporelles sont représentées à travers des images successives dans des séquences vidéo.

Comment Fonctionne YOLOFT

Le module MSTF se concentre sur le maintien des informations de flux optique entre les images et les met à jour de manière itérative. Cela permet à la méthode d'extraire des caractéristiques de mouvements à plusieurs échelles à partir de la vidéo tout en conservant les caractéristiques statiques de l'image actuelle. Le design vise à aider le modèle de détection à mieux capturer à la fois les grands et petits mouvements tout en conservant les informations en haute résolution.

La méthode intègre également un échantillonnage local, permettant au réseau de recueillir des informations sur les objets en mouvement à partir d'images historiques. Cela aide l'algorithme à comprendre comment les objets peuvent se déplacer à travers des scènes au fil du temps, améliorant ainsi la précision globale de détection.

Comparaisons de Performance

En testant YOLOFT contre plusieurs autres méthodes de détection sur les datasets XS-VID et VisDrone2019VID, on a observé que YOLOFT atteignait systématiquement une précision plus élevée que d'autres modèles. Cela indique que l'approche offre de bonnes performances dans la détection de petits objets, même dans des conditions difficiles.

Résultats et Observations

Nos évaluations sur les datasets XS-VID et VisDrone2019VID ont révélé les principales conclusions suivantes :

  1. Les méthodes de détection qui se concentrent sur des objets plus grands ont tendance à avoir des difficultés significatives lorsqu'elles sont appliquées à des petits objets.
  2. Beaucoup de conceptions complexes ne conduisent pas à des améliorations significatives de la performance de détection, mettant en évidence le besoin de méthodes plus simples et plus efficaces.
  3. En intégrant des informations de flux optique, YOLOFT a obtenu de meilleures performances que d'autres méthodes, indiquant l'importance des caractéristiques de mouvement dans la détection des petits objets.

Dans l'ensemble, on a trouvé que YOLOFT abordait efficacement les défis posés par la détection de petits objets dans des séquences vidéo.

Directions Futures

Bien que XS-VID et YOLOFT offrent des améliorations significatives, il y a encore des domaines à faire avancer. Le travail futur pourrait se concentrer sur les points suivants :

  1. Élargir le Dataset : Augmenter la taille de XS-VID avec plus de vidéos et une plus grande variété de scènes fournirait une base plus large pour la recherche.
  2. Améliorer les Techniques de Détection : Poursuivre le développement d'algorithmes capables de mieux gérer les défis spécifiques associés à la détection de petits objets améliorerait la performance globale.
  3. Traiter les Préoccupations de Confidentialité : S'assurer que la collecte et l'utilisation des données respectent des normes éthiques sera crucial, surtout dans les applications liées à la surveillance et à la sécurité.

Conclusion

Le dataset XS-VID et le cadre de détection YOLOFT représentent des avancées importantes dans la détection d'objets dans de petites vidéos. En comblant les lacunes existantes dans les données et en démontrant une amélioration des performances de détection, on pense que ces contributions favoriseront de futures avancées dans ce domaine. Notre objectif est d'améliorer les méthodes de détection de petits objets dans les vidéos, aidant divers applications allant de la surveillance à la sécurité publique.

Source originale

Titre: XS-VID: An Extremely Small Video Object Detection Dataset

Résumé: Small Video Object Detection (SVOD) is a crucial subfield in modern computer vision, essential for early object discovery and detection. However, existing SVOD datasets are scarce and suffer from issues such as insufficiently small objects, limited object categories, and lack of scene diversity, leading to unitary application scenarios for corresponding methods. To address this gap, we develop the XS-VID dataset, which comprises aerial data from various periods and scenes, and annotates eight major object categories. To further evaluate existing methods for detecting extremely small objects, XS-VID extensively collects three types of objects with smaller pixel areas: extremely small (\textit{es}, $0\sim12^2$), relatively small (\textit{rs}, $12^2\sim20^2$), and generally small (\textit{gs}, $20^2\sim32^2$). XS-VID offers unprecedented breadth and depth in covering and quantifying minuscule objects, significantly enriching the scene and object diversity in the dataset. Extensive validations on XS-VID and the publicly available VisDrone2019VID dataset show that existing methods struggle with small object detection and significantly underperform compared to general object detectors. Leveraging the strengths of previous methods and addressing their weaknesses, we propose YOLOFT, which enhances local feature associations and integrates temporal motion features, significantly improving the accuracy and stability of SVOD. Our datasets and benchmarks are available at \url{https://gjhhust.github.io/XS-VID/}.

Auteurs: Jiahao Guo, Ziyang Xu, Lianjun Wu, Fei Gao, Wenyu Liu, Xinggang Wang

Dernière mise à jour: 2024-07-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.18137

Source PDF: https://arxiv.org/pdf/2407.18137

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires