Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Apprentissage automatique

Avancées dans la détection d'objets avec des images RGB et IR

Une nouvelle méthode améliore la détection d'objets en intégrant les données RGB et IR.

― 6 min lire


Optimisation desOptimisation destechniques de détectiond'objetsdétection avec des images RGB et IR.Une nouvelle approche améliore la
Table des matières

La Détection d'objets est une technologie utilisée pour identifier et localiser des objets dans des images. Bien que les méthodes de détection d'objets dans les images couleurs normales (RGB) se soient améliorées, la détection d'objets dans les images infrarouges (IR) reste un défi. Ce problème vient surtout du fait qu'il n'y a pas assez de données d'entraînement étiquetées disponibles pour les Images IR, ce qui rend difficile l'entraînement de modèles efficaces. Les coûts élevés pour obtenir des données IR étiquetées compliquent encore la situation.

Images RGB vs. IR

Les images RGB, c'est ce qu'on voit généralement dans la vie de tous les jours. Elles capturent les couleurs telles qu'elles apparaissent à l'œil humain. Cependant, elles ont des limites, surtout dans des conditions de faible luminosité. La nuit ou dans des zones mal éclairées, les images RGB peuvent ne pas fournir assez de détails pour détecter des objets. Dans ces situations, les caméras IR peuvent être utiles car elles détectent la chaleur émise par les objets, ce qui leur permet de repérer des objets chauds, comme des personnes.

Bien que les caméras IR aient cet avantage, elles ne sont pas aussi largement disponibles que les caméras RGB en raison de coûts plus élevés. Ce manque de disponibilité contribue au problème d'obtenir suffisamment d'images IR pour entraîner des modèles de vision par ordinateur.

Le défi des données limitées

Quand on entraîne des modèles pour la détection d'objets, avoir beaucoup de données d'entraînement aide à améliorer la précision et empêche le modèle de surajuster, ce qui signifie qu'il apprend trop bien les données d'entraînement et fonctionne mal sur de nouvelles données. La disponibilité limitée des images IR peut mener à un surajustement, rendant difficile la généralisation des modèles aux scénarios du monde réel.

Pour y remédier, on peut essayer de tirer parti des connaissances acquises à partir des images RGB, où on a beaucoup de données, et les appliquer pour améliorer la performance dans les images IR.

Méthode de Factorisation de tenseurs

Notre approche se concentre sur une nouvelle façon de structurer les données pour aider à gérer le problème des Données d'entraînement limitées. On utilise une méthode appelée factorisation de tenseurs. Cette technique décompose les modèles complexes en composants plus simples, ce qui nous permet de réduire le nombre de paramètres nécessaires pour l'entraînement. Moins de paramètres peuvent conduire à une meilleure généralisation et une performance améliorée dans des situations où les données sont rares.

En termes plus simples, on décompose le modèle en parties plus petites qui peuvent toujours capturer des caractéristiques importantes des images RGB tout en nous permettant de nous adapter aux images IR avec moins de changements. En pré-entraînant le modèle avec des images RGB, on peut ensuite le peaufiner avec un petit ensemble d'images IR, capturant les caractéristiques uniques nécessaires pour détecter des objets dans ce mode.

Procédure d'entraînement

Au départ, on entraîne notre modèle principalement avec des images RGB, où on a beaucoup de données. On se concentre sur l'apprentissage de la détection d'objets dans ces images et utilise cette connaissance pour construire une base pour notre modèle de détection d'objets.

Une fois le modèle entraîné sur des données RGB, on fait de petits ajustements pour le préparer aux images IR. Cela implique d'ajouter juste quelques paramètres spécifiques à l'entraînement IR tout en gardant la structure principale intacte. De cette façon, on permet au modèle d'apprendre les caractéristiques nécessaires qui sont uniques aux données IR sans repartir de zéro.

Évaluation des performances

Pour vérifier l'efficacité de notre approche, on a réalisé plusieurs expériences en utilisant deux ensembles de données différents : un pour les images RGB et un autre pour les images IR. On a comparé les performances de notre modèle à celles des modèles de pointe existants.

Résultats pour les images RGB

Pour l'ensemble de données RGB, on a observé que notre méthode performait de manière similaire, voire meilleure, que les modèles de pointe existants. Cela indique que notre approche de factorisation de tenseurs aide à maintenir ou augmenter la performance tout en réduisant la complexité du modèle.

Résultats pour les images IR

Dans le cas de l'ensemble de données IR, notre méthode a surpassé les modèles standards, même lorsqu'entraînée avec beaucoup moins de données. Cela montre que tirer parti des connaissances provenant des images RGB permet effectivement d'améliorer la performance dans des scénarios IR.

Analyse qualitative

En examinant de plus près les résultats de détection, on a constaté que notre approche était meilleure pour identifier les objets plus petits et plus éloignés, ainsi que ceux qui se fondaient dans leur arrière-plan. Les modèles existants avaient du mal avec ces types de détections. Cette amélioration suggère que notre méthode offre une robustesse accrue dans diverses situations du monde réel.

De plus, on a remarqué que lorsque l'on a inclus un aspect supplémentaire dans notre entraînement – en se concentrant sur l'apprentissage des caractéristiques spécifiques qui distinguent les données IR des données RGB – la performance s'est encore améliorée. Cette étape a aidé le modèle à mieux s'adapter aux caractéristiques uniques des images IR, menant à une plus grande confiance dans la détection d'objets.

Conclusion

En résumé, on a proposé une nouvelle approche pour la détection d'objets qui utilise les forces des images RGB et IR. En utilisant la factorisation de tenseurs, on réduit efficacement la complexité de notre modèle tout en lui permettant d'apprendre mieux à partir des données IR limitées.

Notre méthode démontre combien il peut être bénéfique de transférer des connaissances d'un environnement riche en données (RGB) vers un environnement pauvre en données (IR). Cette stratégie améliore non seulement la performance de détection d'objets dans les deux modalités, mais aide aussi à gérer les limitations posées par la rareté des données.

À travers nos expériences, on a montré que notre approche peut mener à des avancées significatives dans la détection d'objets dans des conditions difficiles, ouvrant la voie à des applications plus robustes dans des domaines comme la conduite autonome et les systèmes de sécurité où les données RGB et IR sont précieuses.

Source originale

Titre: Tensor Factorization for Leveraging Cross-Modal Knowledge in Data-Constrained Infrared Object Detection

Résumé: The primary bottleneck towards obtaining good recognition performance in IR images is the lack of sufficient labeled training data, owing to the cost of acquiring such data. Realizing that object detection methods for the RGB modality are quite robust (at least for some commonplace classes, like person, car, etc.), thanks to the giant training sets that exist, in this work we seek to leverage cues from the RGB modality to scale object detectors to the IR modality, while preserving model performance in the RGB modality. At the core of our method, is a novel tensor decomposition method called TensorFact which splits the convolution kernels of a layer of a Convolutional Neural Network (CNN) into low-rank factor matrices, with fewer parameters than the original CNN. We first pretrain these factor matrices on the RGB modality, for which plenty of training data are assumed to exist and then augment only a few trainable parameters for training on the IR modality to avoid over-fitting, while encouraging them to capture complementary cues from those trained only on the RGB modality. We validate our approach empirically by first assessing how well our TensorFact decomposed network performs at the task of detecting objects in RGB images vis-a-vis the original network and then look at how well it adapts to IR images of the FLIR ADAS v1 dataset. For the latter, we train models under scenarios that pose challenges stemming from data paucity. From the experiments, we observe that: (i) TensorFact shows performance gains on RGB images; (ii) further, this pre-trained model, when fine-tuned, outperforms a standard state-of-the-art object detector on the FLIR ADAS v1 dataset by about 4% in terms of mAP 50 score.

Auteurs: Manish Sharma, Moitreya Chatterjee, Kuan-Chuan Peng, Suhas Lohit, Michael Jones

Dernière mise à jour: 2023-09-28 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2309.16592

Source PDF: https://arxiv.org/pdf/2309.16592

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires