Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Avancées dans la fusion de données RGB et thermiques

Une nouvelle méthode améliore la combinaison des données RGB et thermiques pour une meilleure perception.

― 7 min lire


Percée dans la fusion dePercée dans la fusion dedonnées RGB-thermiqueperception.des données dans différents tâches deLa méthode EAEF améliore la précision
Table des matières

Ces dernières années, les systèmes de perception qui utilisent à la fois des images RGB (couleur) et des données thermiques ont fait des progrès notables. Les données thermiques sont particulièrement utiles quand les caméras classiques galèrent, comme en basse lumière ou par temps brumeux. Cependant, combiner les infos RGB et thermiques de manière vraiment efficace reste un challenge. Beaucoup de méthodes existantes utilisent des approches simples, comme mélanger les données dès le début ou combiner les caractéristiques dans les modèles. Ces méthodes manquent de profondeur et ne tirent pas vraiment parti des forces des deux types de données.

Le défi de la fusion de données

Utiliser ensemble les données RGB et thermiques peut améliorer la performance générale des tâches de perception, mais le principal obstacle est de savoir comment fusionner ces deux types de données efficacement. Les méthodes conventionnelles sont basiques et ne profitent pas pleinement des caractéristiques distinctes que les images RGB et thermiques offrent. Par exemple, alors qu'un type de données peut fournir des infos utiles, l'autre peut parfois ne pas être très informatif. Reconnaître ces cas est essentiel pour obtenir de meilleurs résultats dans diverses tâches comme la Détection d'objets et la Segmentation sémantique.

Présentation d'une nouvelle méthode

Pour aborder les problèmes des méthodes précédentes, une nouvelle approche appelée Fusion Améliorée par Attention Explicite (EAEF) est proposée. Cette méthode va au-delà de la simple fusion en tenant explicitement compte de différents scénarios :

  1. Les données RGB et thermiques fournissent toutes les deux des caractéristiques précieuses.
  2. Un seul type de données est utile.
  3. Aucun des types ne donne d'infos significatives.

EAEF utilise deux branches différentes pour améliorer le processus d'extraction des caractéristiques. Une branche se concentre sur la maximisation des caractéristiques utiles quand les deux types de données sont disponibles ou quand aucun n'est efficace. L'autre branche booste la performance quand un seul type de données est utile. En faisant cela, la combinaison des sorties des deux branches crée une représentation plus équilibrée et efficace.

Résultats de l'implémentation d'EAEF

L'efficacité de la méthode EAEF a été testée sur plusieurs tâches, y compris la segmentation sémantique, la détection d'objets, la détection d'objets saillants et le Comptage de foules. Dans tous les tests, EAEF a surpassé les méthodes existantes. Par exemple, elle a montré une amélioration de 1,6 % de l'Intersection sur l'Union moyenne (mIoU) pour la segmentation sémantique et une augmentation de 3,1 % de l'Erreur Absolue Moyenne (MAE) pour la détection d'objets saillants.

Données multimodales

Combiner des données de différentes sources peut améliorer considérablement la précision. Beaucoup d'études ont déjà montré des avantages à associer des images RGB avec d'autres types de données, comme les informations de profondeur. Le mécanisme d'attention, qui aide à peser l'importance de différentes caractéristiques, a été couramment utilisé pour améliorer ce processus. Cependant, les approches précédentes utilisaient souvent ces mécanismes d'une manière qui ne tirait pas pleinement parti des aspects uniques des données RGB et thermiques.

Analyse des méthodes existantes

Les recherches passées impliquaient des techniques simples, comme l'addition numérique des données RGB et thermiques. Certains modèles utilisaient même deux encodeurs séparés, un pour chaque type de donnée, qui étaient ensuite combinés. Des études plus récentes ont favorisé les mécanismes d'attention pour faciliter l'extraction de caractéristiques plus larges entre les deux types de données. Bien que ces méthodes aient amélioré la situation, elles manquent encore d'une compréhension explicite de la corrélation entre les données RGB et thermiques.

La nouvelle méthode de fusion expliquée

EAEF vise à clarifier l'interaction entre les données RGB et thermiques. La méthode sépare les processus en deux branches, permettant une analyse plus raffinée. La première branche se concentre sur les situations où les deux types de données fournissent des insights précieux, tandis que la deuxième branche entre en jeu lorsque seul un type est efficace. Cette division aide à créer une image plus claire et des caractéristiques plus fiables pour les prédictions finales.

Application dans diverses tâches

EAEF a été intégré dans un cadre encodeur-décodeur et testé sur plusieurs tâches visuelles. Les résultats ont montré une amélioration marquée de la performance par rapport aux méthodes traditionnelles. Le cadre peut s'adapter à différentes tâches tout en maintenant les composants nécessaires pour une fusion efficace.

Segmentation sémantique

Un des ensembles de données les plus connus pour la segmentation sémantique RGB-thermique, MFNet, a été utilisé pour les tests. Cet ensemble de données inclut plusieurs catégories urbaines et est largement considéré comme une référence. En utilisant EAEF, la précision et l'efficacité de l'extraction des caractéristiques ont été améliorées, surtout dans des situations d'éclairage difficiles.

Détection d'objets

Une autre tâche essentielle était la détection d'objets, où EAEF a été appliqué à un ensemble de données contenant de nombreux véhicules, personnes et autres classes. La méthode a excellé à reconnaître divers objets dans différentes conditions environnementales.

Détection d'objets saillants

La méthode a également été évaluée dans des tâches de détection d'objets saillants, où elle a surpassé plusieurs modèles existants. En se concentrant sur les caractéristiques qui se distinguent, EAEF a réussi à identifier de petits objets avec plus de précision que les méthodes précédentes.

Comptage de foules

Pour le comptage des foules dans les images, EAEF a été testé sur l'ensemble de données RGBT-CC. Les résultats ont indiqué que cette méthode pouvait détecter et compter des individus plus efficacement que les modèles reposant sur un seul type de données.

Avantages de la nouvelle approche

La méthode EAEF offre plusieurs avantages notables :

  1. Performance Améliorée : Dans toutes les tâches testées, EAEF a constamment donné de meilleurs résultats que les méthodologies existantes.
  2. Robustesse dans des conditions variées : La méthode s'est révélée efficace dans différentes situations d'éclairage, y compris des environnements lumineux et sombres.
  3. Extraction de caractéristiques améliorée : EAEF permet une meilleure reconnaissance des petites et critiques caractéristiques qui sont importantes pour des prédictions précises.

Conclusion

En résumé, la Fusion Améliorée par Attention Explicite présente une nouvelle approche convaincante pour combiner les données RGB et thermiques. En abordant spécifiquement divers scénarios et en employant des stratégies ciblées, cette méthode a démontré des avancées significatives dans plusieurs tâches de perception. Le succès d'EAEF pourrait mener à de meilleures applications en robotique et dans d'autres domaines qui dépendent d'une détection environnementale précise. Le développement de cette méthode montre le potentiel pour de meilleures techniques de fusion de données à l'avenir, améliorant au final les capacités des systèmes de perception.

Source originale

Titre: Explicit Attention-Enhanced Fusion for RGB-Thermal Perception Tasks

Résumé: Recently, RGB-Thermal based perception has shown significant advances. Thermal information provides useful clues when visual cameras suffer from poor lighting conditions, such as low light and fog. However, how to effectively fuse RGB images and thermal data remains an open challenge. Previous works involve naive fusion strategies such as merging them at the input, concatenating multi-modality features inside models, or applying attention to each data modality. These fusion strategies are straightforward yet insufficient. In this paper, we propose a novel fusion method named Explicit Attention-Enhanced Fusion (EAEF) that fully takes advantage of each type of data. Specifically, we consider the following cases: i) both RGB data and thermal data, ii) only one of the types of data, and iii) none of them generate discriminative features. EAEF uses one branch to enhance feature extraction for i) and iii) and the other branch to remedy insufficient representations for ii). The outputs of two branches are fused to form complementary features. As a result, the proposed fusion method outperforms state-of-the-art by 1.6\% in mIoU on semantic segmentation, 3.1\% in MAE on salient object detection, 2.3\% in mAP on object detection, and 8.1\% in MAE on crowd counting. The code is available at https://github.com/FreeformRobotics/EAEFNet.

Auteurs: Mingjian Liang, Junjie Hu, Chenyu Bao, Hua Feng, Fuqin Deng, Tin Lun Lam

Dernière mise à jour: 2023-03-27 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.15710

Source PDF: https://arxiv.org/pdf/2303.15710

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires