Progrès dans la détection piétonne multi-modale
Le nouveau modèle MMPedestron améliore la détection des piétons en utilisant plusieurs types de capteurs.
― 7 min lire
Table des matières
- Le défi de la détection multimodale
- Benchmark MMPD et modèle MMPedestron
- Avantages de MMPedestron
- Comment MMPedestron fonctionne
- Encodeur uni
- Tête de détection
- Approche d'entraînement
- Méthode d'évaluation
- Résultats et comparaisons
- Avantages de l'apprentissage multimodal
- Visualisation et analyse
- Directions futures
- Conclusion
- Source originale
- Liens de référence
La détection de piétons est un domaine super important en vision par ordinateur, surtout pour des applis comme les voitures autonomes, la robotique, et les systèmes de sécurité. Ces dernières années, il y a eu de plus en plus d'intérêt à utiliser différents types de capteurs pour améliorer la détection des piétons. Utiliser divers capteurs comme RGB (couleur), IR (infrarouge), profondeur, LiDAR, et caméras événementielles peut fournir des infos cruciales qui aident à détecter les piétons plus précisément, surtout dans des environnements difficiles.
Le défi de la détection multimodale
La plupart des méthodes traditionnelles de détection des piétons s'appuient sur un seul type d'image, généralement RGB. Mais ces méthodes galèrent dans des situations compliquées comme des arrière-plans chargés ou en faible luminosité. Avec les avancées technologiques des capteurs, on pousse pour utiliser plusieurs types de capteurs ensemble, ce qu'on appelle l'Apprentissage multimodal. Cette approche peut combiner les forces de différents capteurs. Par exemple, les capteurs infrarouges peuvent identifier la chaleur corporelle dans l'obscurité, tandis que les capteurs LiDAR offrent des infos de profondeur.
Malgré les avantages d'utiliser plusieurs capteurs, créer un modèle unique qui utilise efficacement toutes ces données est difficile. Beaucoup d'approches précédentes sont conçues pour gérer un seul type de capteur ou une combinaison limitée de deux. Ça crée le besoin de nombreux modèles différents, ce qui peut rendre les systèmes complexes et inefficaces.
Benchmark MMPD et modèle MMPedestron
Pour résoudre ces problèmes, on introduit un nouveau modèle appelé MMPedestron qui peut fonctionner avec plusieurs types de capteurs. MMPedestron est conçu pour traiter efficacement différents types de données et fournir une détection précise des piétons.
On a aussi créé un ensemble de données de référence appelé MMPD. Cet ensemble combine des ensembles de données publics existants et inclut un nouveau jeu de données spécifiquement pour les données événementielles, appelé EventPed. Le jeu de données MMPD contient une grande variété de capteurs comme RGB, IR, profondeur, LiDAR, et données événementielles. Il inclut des images de différents scénarios, comme des lieux bondés et différentes conditions d'éclairage.
Avoir un ensemble de données aussi diversifié nous aide à entraîner des modèles qui peuvent bien s'adapter à différents environnements.
Avantages de MMPedestron
Le modèle MMPedestron est conçu avec plusieurs caractéristiques clés :
Flexibilité : Il peut gérer efficacement divers types de données et leurs combinaisons. Ça permet de l'utiliser dans plein d'applis sans avoir besoin de modèles séparés pour chaque type de capteur.
Évolutivité : L'architecture permet de grandir sans une augmentation proportionnelle de la complexité quand on ajoute plus de types de capteurs.
Généralisation : Les données d'entraînement diversifiées aident le modèle à bien performer dans différentes conditions et combinaisons de capteurs.
Comment MMPedestron fonctionne
Le modèle MMPedestron se compose d'un encodeur uni et d'une Tête de détection. L'encodeur prend des données de différents capteurs et les traite ensemble. C'est différent de beaucoup de modèles existants qui utilisent des chemins séparés pour chaque type de capteur.
Encodeur uni
L'encodeur convertit les données d'entrée de chaque capteur en une forme compréhensible par le modèle. Il utilise une série de blocs de transformateurs pour affiner cette info. Deux tokens spéciaux apprenables sont introduits, appelés le Fuseur Sensible à la Modalité (MAF) et l'Abrégeur Sensible à la Modalité (MAA). Ces tokens aident à combiner l'info de différents types de capteurs plus efficacement.
Tête de détection
Après que l'encodeur traite les données, elles sont envoyées à la tête de détection, qui fait les dernières prédictions sur où se trouvent les piétons dans l'image d'entrée.
Approche d'entraînement
MMPedestron est entraîné en deux étapes principales. La première étape se concentre sur l'utilisation des données RGB pour apprendre au modèle les infos de base sur la détection humaine. La seconde étape implique de s'entraîner avec des données mixtes provenant de différentes sources. Cette formation en deux parties aide le modèle à apprendre des caractéristiques générales à partir des images RGB tout en gagnant la capacité de gérer plusieurs types de capteurs dans un seul cadre unifié.
Pour se préparer à l'entraînement multimodal, on incorpore une méthode appelée "modality dropout". Ça veut dire que pendant l'entraînement, on retire parfois un type de données de capteur pour s'assurer que le modèle apprend à bien fonctionner avec des infos incomplètes.
Méthode d'évaluation
On évalue notre modèle dans deux scénarios principaux : évaluation unimodale et multimodale.
Évaluation unimodale : On teste la performance du modèle quand on lui donne des données d'un seul type de capteur. Ça se fait en utilisant différents ensembles de données pour comprendre comment le modèle gère chaque capteur de manière indépendante.
Évaluation multimodale : Ici, on regarde comment le modèle se débrouille quand il reçoit des données de plusieurs capteurs en même temps. C'est crucial pour les applis réelles où divers types d'entrées sont courants.
Résultats et comparaisons
Dans nos tests, MMPedestron montre une forte performance, dépassant souvent les modèles existants qui ont été spécialement conçus pour des types de capteurs individuels. Par exemple, en comparant la performance sur le jeu de données COCO, qui est largement utilisé pour les tâches de détection, MMPedestron a réalisé une amélioration notable de la précision par rapport aux modèles précédents.
Notre modèle fonctionne aussi exceptionnellement bien sur des ensembles de données difficiles comme CrowdHuman, qui implique des scènes bondées. Bien qu'il soit plus petit que certains modèles concurrents, MMPedestron continue de livrer une haute précision.
Avantages de l'apprentissage multimodal
Utiliser plusieurs types de capteurs a des avantages distincts :
Robustesse : Combiner des données de différentes sources aide le modèle à surmonter les limites de n'importe quel capteur unique. Par exemple, si l'éclairage est mauvais, le capteur IR peut toujours détecter la chaleur, tandis que les capteurs de profondeur peuvent fournir un contexte spatial.
Précision améliorée : Avec plus d'infos, le modèle peut prendre des décisions plus éclairées sur la détection des piétons, réduisant les faux positifs et négatifs.
Polyvalence : La capacité à traiter divers types de données fait que MMPedestron peut être déployé dans de nombreux scénarios, des environnements urbains aux espaces intérieurs et au-delà.
Visualisation et analyse
Pour mieux comprendre comment MMPedestron fonctionne, on analyse les résultats visuellement. Par exemple, on peut observer les résultats de détection à travers différentes combinaisons de capteurs comme RGB+IR ou RGB+Depth. Ce retour visuel aide à montrer la capacité du modèle à adapter sa stratégie de détection en fonction des données disponibles.
Directions futures
Bien que MMPedestron offre des améliorations significatives en détection de piétons, il y a encore de la place pour le développement. Les recherches futures peuvent se concentrer sur l'incorporation d'autres modalités comme des nuages de points 3D ou des séquences vidéo, qui peuvent fournir encore plus d'infos pour les tâches de détection de piétons.
Conclusion
En résumé, MMPedestron représente un pas important en avant dans la détection multimodale des piétons. En utilisant efficacement une variété de types de capteurs, ce modèle peut bien performer dans de nombreux scénarios différents. La création du benchmark MMPD soutient encore le développement et l'évaluation continus des méthodes de détection multimodales. Au fur et à mesure que la technologie progresse, le potentiel d'améliorer les capacités du modèle grâce à des types de capteurs supplémentaires reste prometteur.
Titre: When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset
Résumé: Recent years have witnessed increasing research attention towards pedestrian detection by taking the advantages of different sensor modalities (e.g. RGB, IR, Depth, LiDAR and Event). However, designing a unified generalist model that can effectively process diverse sensor modalities remains a challenge. This paper introduces MMPedestron, a novel generalist model for multimodal perception. Unlike previous specialist models that only process one or a pair of specific modality inputs, MMPedestron is able to process multiple modal inputs and their dynamic combinations. The proposed approach comprises a unified encoder for modal representation and fusion and a general head for pedestrian detection. We introduce two extra learnable tokens, i.e. MAA and MAF, for adaptive multi-modal feature fusion. In addition, we construct the MMPD dataset, the first large-scale benchmark for multi-modal pedestrian detection. This benchmark incorporates existing public datasets and a newly collected dataset called EventPed, covering a wide range of sensor modalities including RGB, IR, Depth, LiDAR, and Event data. With multi-modal joint training, our model achieves state-of-the-art performance on a wide range of pedestrian detection benchmarks, surpassing leading models tailored for specific sensor modality. For example, it achieves 71.1 AP on COCO-Persons and 72.6 AP on LLVIP. Notably, our model achieves comparable performance to the InternImage-H model on CrowdHuman with 30x smaller parameters. Codes and data are available at https://github.com/BubblyYi/MMPedestron.
Auteurs: Yi Zhang, Wang Zeng, Sheng Jin, Chen Qian, Ping Luo, Wentao Liu
Dernière mise à jour: 2024-07-14 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.10125
Source PDF: https://arxiv.org/pdf/2407.10125
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.