Améliorer la détection des piétons avec MSCoTDet
Une nouvelle méthode améliore la détection des piétons en utilisant des images RGB et thermiques.
― 7 min lire
Table des matières
- Pourquoi la détection multispectrale est importante
- Défis courants
- MSCoTDet : Une nouvelle approche
- Les deux branches de détection
- Le rôle des grands modèles de langage
- Processus de détection étape par étape
- Génération de descriptions textuelles
- Raisonnement cross-modal
- Fusion des informations
- Résultats expérimentaux
- Évaluation des performances
- Atténuation du biais de modalité
- Conclusion
- Source originale
- Liens de référence
Détecter des gens avec différents types d'images, c'est super important. C'est particulièrement le cas quand on utilise des images en lumière normale (RGB) et thermique (chaleur). Combiner ces deux méthodes peut vraiment aider à identifier les Piétons à n'importe quel moment de la journée ou de la nuit. Mais bon, beaucoup de systèmes de détection galèrent dans certaines situations, surtout quand la qualité des images est pas top ou quand le système devient trop dépendant d'un type d'image plus que de l'autre.
Cet article présente une nouvelle méthode appelée MSCoTDet, qui utilise de grands modèles de langage pour améliorer la détection des piétons en comprenant mieux les différences et similitudes entre les images RGB et Thermiques.
Pourquoi la détection multispectrale est importante
Détecter les piétons avec précision est vital pour la sécurité dans divers domaines, comme les voitures autonomes et les systèmes de surveillance. La détection multispectrale est utile parce que les images RGB capturent la couleur, tandis que les images thermiques donnent des infos basées sur la chaleur. Cette combinaison permet de mieux détecter les piétons la nuit ou quand la visibilité est mauvaise.
Quand on combine ces deux types d'images, le système peut identifier les gens plus précisément, ce qui rend les environnements plus sûrs. Mais souvent, les méthodes existantes fonctionnent mal quand les conditions ne sont pas idéales, montrant bien le besoin d'améliorations dans ce domaine.
Défis courants
Un des principaux défis dans la détection multispectrale des piétons, c'est le biais vers un type d'image. Souvent, les systèmes entraînés sur des ensembles de données où les images thermiques sont présentes apprennent à s'y fier beaucoup. Cela devient problématique quand le système se retrouve dans des situations où les signaux thermiques sont faibles ou absents. Dans ces cas, même si un piéton est clairement visible dans l'image RGB, le système peut ne pas le voir.
En plus, les propriétés différentes des images RGB et thermiques peuvent compliquer la fusion des infos efficacement. Parfois, le système peut échouer à combiner les données des deux types d'images, entraînant des erreurs de détection.
MSCoTDet : Une nouvelle approche
Pour résoudre ces problèmes, le cadre MSCoTDet a été développé. Ce cadre intègre de grands modèles de langage pour aider à combler le fossé entre les informations des images RGB et thermiques. En traitant les données des deux types d'images de manière progressive, le système peut faire un raisonnement plus efficace lors de l'identification des piétons.
Les deux branches de détection
MSCoTDet est conçu avec deux parties principales :
Branche Vision : Cette partie est responsable du traitement des images RGB et thermiques séparément. Chaque image est examinée avec des détecteurs unimodaux pour identifier les piétons potentiels.
Branche Langage : Ce composant génère des descriptions textuelles basées sur les piétons détectés. En utilisant ces descriptions, le système peut faire une analyse plus approfondie de ce qu'il a détecté dans les deux types d'images.
Le rôle des grands modèles de langage
Les grands modèles de langage (LLM) sont des outils puissants qui aident à comprendre et à générer des infos textuelles. Dans le contexte de la détection des piétons, ces modèles peuvent traiter les données textuelles sur les piétons détectés et faciliter un raisonnement plus approfondi. Grâce à ce processus, le cadre MSCoTDet peut combiner les informations des deux types d'images de manière plus efficace.
Processus de détection étape par étape
Génération de descriptions textuelles
La première étape du processus de détection consiste à générer des descriptions textuelles pour les piétons identifiés dans les images RGB et thermiques. Cela se fait via une méthode d'appariement, qui associe les boîtes englobantes autour des piétons potentiels des deux types d'images. En alignant ces Détections, le système peut mieux comprendre le contexte et fournir des descriptions précises.
Une fois que les boîtes englobantes sont appariées, chaque image passe par un modèle qui génère des descriptions textuelles. Ces descriptions résument ce qui est visible dans chaque boîte englobante correspondante, aboutissant à un ensemble de données textuelles qui reflète ce que le système a détecté.
Raisonnement cross-modal
La prochaine étape consiste à appliquer une méthode de raisonnement appelée le Multispectral Chain-of-Thought (MSCoT) prompting. Ce prompting guide le modèle de langage à travers le processus d'analyse des informations des deux ensembles de descriptions.
Le LLM commence par prédire ce qu'il voit dans l'image RGB en se basant sur sa description, puis fait de même pour l'image thermique. À ce stade, le modèle prédit aussi un score combiné qui reflète sa confiance dans l'exactitude de la détection.
Fusion des informations
Après que les deux branches (vision et langage) aient fourni leurs insights, les scores de détection finaux et les boîtes englobantes sont fusionnés. Ce processus de fusion combine les prédictions des deux branches pour arriver à une conclusion sur la présence d'un piéton et la confiance du système dans cette détection.
Résultats expérimentaux
Pour tester l'efficacité du cadre MSCoTDet, de nombreuses expériences ont été réalisées sur plusieurs ensembles de données. Ces ensembles comprenaient :
- Le FLIR Dataset : Composé d'images RGB et thermiques bien alignées.
- Le CVC-14 Dataset : Connu pour contenir des images RGB et thermiques significativement désalignées.
- Le ROTX-MP Dataset : Mettant l'accent sur des scénarios avec des piétons obscurcis par la chaleur.
Évaluation des performances
Les résultats expérimentaux ont montré que MSCoTDet surpassait les méthodes existantes dans la détection des piétons sous diverses conditions. Plus précisément, il a réussi à identifier les piétons même quand ils étaient thermiquement obscurcis ou quand des désalignements se produisaient entre les images.
Par exemple, lors des tests sur le jeu de données ROTX-MP, MSCoTDet a démontré sa capacité à détecter avec précision les piétons dans des situations où d'autres modèles avaient du mal. Cela incluait la détection de personnes dans des scénarios où leurs signaux thermiques étaient faibles ou absents.
Atténuation du biais de modalité
Un des grands avantages de MSCoTDet était sa capacité à atténuer le biais de modalité. Les résultats ont indiqué qu'en utilisant des descriptions textuelles avec les données visuelles, le système pouvait mieux intervenir quand un type d'image ne fournissait pas d'infos adéquates. Cette adaptabilité est critique pour les applications réelles où les conditions varient beaucoup.
Conclusion
Le cadre MSCoTDet représente une avancée significative dans le domaine de la détection multispectrale des piétons. En combinant les forces des méthodes de détection visuelle avec les capacités de raisonnement des grands modèles de langage, cette approche réussit à relever de nombreux défis auxquels sont confrontés les systèmes existants.
À mesure que la détection des piétons continue d'évoluer, intégrer des modèles plus sophistiqués comme MSCoTDet sera essentiel pour améliorer la sécurité et la performance dans diverses applications. La fusion réussie des données visuelles et textuelles ouvre de nouvelles possibilités pour la recherche et le développement futurs, préparant le terrain pour des systèmes de détection plus robustes et adaptables dans le monde réel.
Les applications potentielles de cette technologie sont vastes et pourraient mener à des systèmes de circulation plus intelligents, à des technologies de surveillance améliorées et à des véhicules autonomes plus sûrs, représentant un pas en avant significatif dans la quête de solutions de détection des piétons fiables.
Titre: MSCoTDet: Language-driven Multi-modal Fusion for Improved Multispectral Pedestrian Detection
Résumé: Multispectral pedestrian detection is attractive for around-the-clock applications due to the complementary information between RGB and thermal modalities. However, current models often fail to detect pedestrians in certain cases (e.g., thermal-obscured pedestrians), particularly due to the modality bias learned from statistically biased datasets. In this paper, we investigate how to mitigate modality bias in multispectral pedestrian detection using Large Language Models (LLMs). Accordingly, we design a Multispectral Chain-of-Thought (MSCoT) prompting strategy, which prompts the LLM to perform multispectral pedestrian detection. Moreover, we propose a novel Multispectral Chain-of-Thought Detection (MSCoTDet) framework that integrates MSCoT prompting into multispectral pedestrian detection. To this end, we design a Language-driven Multi-modal Fusion (LMF) strategy that enables fusing the outputs of MSCoT prompting with the detection results of vision-based multispectral pedestrian detection models. Extensive experiments validate that MSCoTDet effectively mitigates modality biases and improves multispectral pedestrian detection.
Auteurs: Taeheon Kim, Sangyun Chung, Damin Yeom, Youngjoon Yu, Hak Gu Kim, Yong Man Ro
Dernière mise à jour: 2024-05-29 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2403.15209
Source PDF: https://arxiv.org/pdf/2403.15209
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.