Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle

Améliorer la détection de petits objets dans les images aériennes

Une nouvelle méthode améliore la détection des petits objets dans des images aériennes complexes.

― 10 min lire


Le détecteur CZ booste laLe détecteur CZ booste ladétection aérienne.détection des petits objets.significativement la précision deUne nouvelle méthode améliore
Table des matières

Détecter des objets dans des images aériennes, c'est pas simple. Les images aériennes contiennent souvent plein de petits objets entassés ensemble et répartis de manière inégale. Une méthode courante pour améliorer la détection dans ces zones surpeuplées, c'est le cropping de densité. Cette technique se concentre sur l'extraction de parties de l'image où il y a beaucoup de petits objets, ce qui permet de les traiter en haute détail. Toutefois, cette technique nécessite souvent d'ajouter des composants supplémentaires, ce qui complique le processus.

Dans cet article, on présente une méthode efficace pour détecter des objets dans des images aériennes haute résolution en utilisant une nouvelle méthode appelée le détecteur Cascaded Zoom-in (CZ). Cette méthode réutilise le processus de détection existant pour guider l'entraînement et l'inférence en fonction de la densité. Pendant l'entraînement, on trouve et on étiquette les crops de densité comme une nouvelle classe, qu'on utilise ensuite pour améliorer l'ensemble de données d'entraînement. Pendant l'inférence, on détecte d'abord les crops de densité avec les principaux objets, puis on analyse à nouveau les crops de densité dans une deuxième étape. Cette méthode est simple à intégrer dans n'importe quel système de détection et ne modifie pas significativement le processus de détection traditionnel.

Contexte

Avec la montée du deep learning, les techniques de détection d'objets ont beaucoup évolué. Ces techniques sont maintenant largement utilisées dans divers domaines, y compris l'imagerie aérienne par drones et satellites. Cependant, il y a des défis uniques quand il s'agit d'analyser des images aériennes par rapport aux images naturelles. Les images aériennes sont souvent en haute résolution et remplies de petits objets. Dans des ensembles de données standards comme Pascal VOC et MS-COCO, les images contiennent en général seulement quelques objets, avec une moyenne d'environ 3 et 7 objets, respectivement. En revanche, des ensembles de données aériennes populaires comme VisDrone et DOTA ont des moyennes de 53 et 67 objets par image. Les résolutions des images aériennes peuvent aussi être beaucoup plus grandes, rendant encore plus compliqué les tâches de détection.

Défis dans la Détection d'Images Aériennes

Il y a plusieurs défis clés pour détecter de petits objets dans des images aériennes haute résolution. D'abord, redimensionner les images pour l'entrée peut entraîner une perte de détails importants et réduire l'efficacité de l'extraction des caractéristiques. En plus, de petits changements dans les boîtes englobantes peuvent causer une chute drastique de la précision de détection, entraînant plus de faux positifs. Les méthodes typiques utilisées pour détecter de petits objets consistent souvent à découper l'image en sections uniformes et à traiter chaque section séparément. Bien que cela puisse améliorer la précision, ça ne prend pas en compte la distribution réelle des objets dans l'image.

La meilleure pratique est d'utiliser une méthode de cropping basée sur la densité, en se concentrant sur les régions surpeuplées où se trouvent les petits objets. Cependant, de nombreuses méthodes existantes nécessitent des modules d'apprentissage supplémentaires et plusieurs étapes d'entraînement, ce qui les rend plus complexes que nécessaire. Cela a poussé de nombreux praticiens à se contenter de méthodes de cropping uniformes plus simples, même si elles ne fonctionnent pas aussi bien.

Le Détecteur Cascaded Zoom-in

Pour résoudre ces problèmes, on propose le détecteur CZ, qui se concentre sur l'utilisation de crops de densité pour améliorer la détection d'images aériennes tout en gardant le processus simple. Notre approche utilise le détecteur d'objet standard lui-même pour identifier les crops de densité, les étiquetant comme une nouvelle classe. Cela permet au détecteur de recevoir des signaux cohérents tout au long de la période d'entraînement. Les crops de densité sont extraits comme une étape de prétraitement, améliorant les données d'entraînement sans modifier le processus de détection principal.

Entraînement avec les Crops de Densité

Pour mettre en œuvre notre méthode, on introduit une nouvelle classe appelée "crop de densité" dans les annotations d'entraînement. Cette classe va étiqueter les régions qui contiennent de nombreux petits objets. Ce faisant, le détecteur peut se concentrer sur ces régions pendant l'entraînement, permettant une meilleure reconnaissance des objets. On effectue un fusionnement itératif des boîtes étiquetées pour identifier efficacement les crops de densité. Ce processus inclut l'expansion des boîtes englobantes et le calcul de leur recouvrement, s'assurant qu'on capture précisément les régions d'objets surpeuplées.

Processus d'Inférence

Une fois entraîné, le détecteur CZ utilise un processus d'inférence en deux étapes. Dans la première étape, il détecte à la fois les objets de classes standard et les crops de densité de l'image d'entrée. Dans la seconde étape, ces crops de densité détectés sont analysés à nouveau, en se concentrant spécifiquement sur les régions surpeuplées. Cela permet une analyse plus détaillée des petits objets. Les résultats des deux étapes sont ensuite combinés pour un output final.

Ensembles de Données et Évaluation

Pour nos expériences, on a utilisé deux ensembles de données bien connus pour la détection d'images aériennes : VisDrone et DOTA. La métrique principale pour évaluer la performance est le score de précision moyenne, qui prend en compte l'exactitude de la détection d'objets de différentes tailles. L'ensemble de données VisDrone se compose d'images capturées par drones, tandis que l'ensemble de données DOTA inclut des images satellite. Chaque ensemble de données présente ses propres défis, comme des résolutions variées et un grand nombre de petits objets.

Ensemble de Données VisDrone

L'ensemble de données VisDrone comprend plus de 8 500 images avec une résolution moyenne d'environ 2000x1500 pixels. Ces images contiennent des objets de dix catégories, principalement des véhicules et des piétons. L'ensemble de données pose des défis à cause de ses déséquilibres extrêmes de classe et d'échelle, ce qui le rend idéal pour étudier la détection de petits objets.

Ensemble de Données DOTA

L'ensemble de données DOTA se compose d'images satellite avec des résolutions allant de 800x800 à 4000x4000 pixels. Il contient plus de 280 000 instances annotées à travers quinze catégories. Ces images incluent à la fois des objets mobiles et immobiles, s'assurant que notre méthode est testée dans une variété de scénarios.

Détails de Mise en Œuvre

On a mis en œuvre le détecteur CZ en utilisant l'outil Detectron2, en s'appuyant principalement sur l'architecture Faster RCNN. On a aussi évalué la performance de notre méthode en utilisant le détecteur sans ancre moderne FCOS pour voir comment notre approche se généralise. Pour les deux architectures, on a utilisé un Réseau de Pyramide de Caractéristiques (FPN) avec un backbone ResNet50.

Notre entraînement incluait des stratégies d'augmentation de données comme le redimensionnement et le retournement horizontal. Le modèle a été entraîné pendant 70 000 itérations avec un planning de taux d'apprentissage spécifique. On voulait garder la méthode flexible et facile à utiliser, donc la classe supplémentaire de "crop de densité" était la seule modification apportée au pipeline de détection standard.

Comparaison avec des Baselines

On a comparé la performance de notre détecteur CZ avec des méthodes de cropping uniformes traditionnelles. Les résultats indiquent que même si le cropping uniforme améliore la précision de détection, ça reste en deçà de notre approche de cropping de densité. Notre détecteur CZ a significativement amélioré la précision de détection, surtout pour les petits objets.

Dans l'ensemble de données VisDrone, on a constaté des améliorations dans la précision moyenne, en particulier pour les petits objets. La méthode a aussi été testée sur l'ensemble de données DOTA, confirmant des gains similaires en performance de détection. Bien qu'ayant un taux d'images par seconde légèrement plus lent par rapport au cropping uniforme, l'augmentation de la précision de détection justifiait le temps supplémentaire pris.

Études d'Ablation

On a effectué plusieurs études d'ablation pour valider l'efficacité de notre approche et des composants individuels impliqués. Ces études ont aidé à évaluer l'impact de divers paramètres, comme le score de confiance utilisé pour les crops de densité et la qualité des crops dans l'ensemble de données d'entraînement.

Efficacité des Crops de Densité

Nos études ont confirmé qu'incorporer des crops de densité pendant l'entraînement et l'inférence booste significativement la performance de détection. Quand les crops de densité n'étaient pas inclus dans l'ensemble d'entraînement, la précision de détection pour les petits objets était nettement plus basse. De plus, la qualité des crops jouait un rôle crucial dans l'atteinte d'une performance optimale.

Stratégie de Fusion Itérative

La stratégie de fusion itérative utilisée pour étiqueter les crops de densité s'est aussi révélée efficace. Cette approche a amélioré la qualité des crops de densité en s'assurant qu'ils englobent des groupes de petits objets d'une manière qui maintenait leur densité dans l'image.

Résultats avec d'Autres Détecteurs

Pour valider encore plus notre méthode, on l'a aussi appliquée à d'autres architectures de détection, y compris le détecteur sans ancre à une étape FCOS. Les résultats ont montré que notre détecteur CZ améliorait constamment la précision moyenne, renforçant l'idée que l'utilisation de crops de densité est bénéfique à travers diverses architectures de modèles.

Comparaison avec des Méthodes à la Pointe

On a comparé notre approche avec des méthodes existantes dans le domaine de la détection aérienne. Notre détecteur CZ a atteint la plus haute précision moyenne sur l'ensemble de données VisDrone, indiquant son efficacité pour la détection de petits objets. Malgré de légères chutes de performance pour les objets plus grands, les gains globaux dans la détection de petits objets ont confirmé les avantages de notre méthode.

Conclusion

En résumé, on a introduit le détecteur Cascaded Zoom-in (CZ), qui utilise efficacement des crops de densité pour améliorer la détection de petits objets dans des images aériennes haute résolution. En ajoutant simplement une nouvelle classe aux modèles de détection standard, on peut significativement améliorer la précision de détection tout en gardant la facilité d'utilisation. Les travaux futurs se concentreront sur l'adaptation de la méthode pour encore de meilleurs résultats, éventuellement en ajustant le processus d'upscale pour les crops de densité en fonction de leur densité réelle dans l'image. Dans l'ensemble, nos découvertes soulignent l'importance de prendre en compte les défis uniques de la détection d'images aériennes et suggèrent des solutions pratiques qui peuvent être rapidement adoptées par les praticiens dans le domaine.

Source originale

Titre: Cascaded Zoom-in Detector for High Resolution Aerial Images

Résumé: Detecting objects in aerial images is challenging because they are typically composed of crowded small objects distributed non-uniformly over high-resolution images. Density cropping is a widely used method to improve this small object detection where the crowded small object regions are extracted and processed in high resolution. However, this is typically accomplished by adding other learnable components, thus complicating the training and inference over a standard detection process. In this paper, we propose an efficient Cascaded Zoom-in (CZ) detector that re-purposes the detector itself for density-guided training and inference. During training, density crops are located, labeled as a new class, and employed to augment the training dataset. During inference, the density crops are first detected along with the base class objects, and then input for a second stage of inference. This approach is easily integrated into any detector, and creates no significant change in the standard detection process, like the uniform cropping approach popular in aerial image detection. Experimental results on the aerial images of the challenging VisDrone and DOTA datasets verify the benefits of the proposed approach. The proposed CZ detector also provides state-of-the-art results over uniform cropping and other density cropping methods on the VisDrone dataset, increasing the detection mAP of small objects by more than 3 points.

Auteurs: Akhil Meethal, Eric Granger, Marco Pedersoli

Dernière mise à jour: 2023-03-15 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.08747

Source PDF: https://arxiv.org/pdf/2303.08747

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires