Défis dans la Reconnaissance des Pilotes de Course Tout-Terrain
De nouvelles données montrent des difficultés à identifier les coureurs et les textes dans des conditions boueuses.
― 8 min lire
Table des matières
- Les ensembles de données
- Défis dans la reconnaissance
- Évaluation des modèles
- Observations des ensembles de données
- Résultats des modèles de reconnaissance de texte
- Résultats des modèles d'identification de personnes
- Analyse qualitative de la performance des modèles
- Conclusion
- Source originale
- Liens de référence
Reconnaître du texte et des personnes sur des photos prises dans des situations réelles, c'est super compliqué. Même si la technologie pour lire le texte dans les images et reconnaître des gens a beaucoup progressé, il reste plein de défis. Par exemple, reconnaître des coureurs sur des photos de compétitions tout-terrain peut être galère à cause de divers éléments comme la boue, des poses étranges et des images floues.
Pour aider avec ce souci, deux nouveaux ensembles de données ont été créés à partir de courses de motos tout-terrain. Ces ensembles visent à montrer les limites de la technologie actuelle et à encourager les progrès dans la Reconnaissance de texte et l'identification de personnes dans des conditions difficiles.
Les ensembles de données
Le premier ensemble de données s'appelle le Racer Number Dataset (RND) pour les motos tout-terrain. Il comprend plus de 2 400 images de coureurs pendant les courses, avec les numéros de coureur bien visibles sur les images. Il y a plus de 5 500 numéros de coureur individuels au total. Ces images présentent plusieurs défis, comme la boue qui cache les numéros, des angles de caméra bizarres et des images de basse qualité.
Le deuxième ensemble est le Muddy Racer re-identification Dataset (MUDD). Il contient presque 4 000 images, capturant 150 coureurs différents lors de dix événements tout-terrain distincts. Chaque image est étiquetée avec l'identité du coureur, et ces images font aussi face à des problèmes comme la boue, des éclairages changeants et des poses variées.
Les deux ensembles ont été collectés sur un site qui présente des photos de photographes professionnels de sports mécaniques. Ils offrent une grande variété de conditions qui mettent à l'épreuve les méthodes actuelles de reconnaissance d'images.
Défis dans la reconnaissance
Les méthodes actuelles ont du mal à reconnaître du texte et des images dans des environnements difficile. Par exemple, les technologies standards peuvent lire le texte sur des documents très précisément, mais échouent face à du texte dans des scènes encombrées ou lorsque le texte est partiellement caché par de la boue ou d'autres éléments. De même, l'identification des personnes sur les images souffre quand elles ne sont pas clairement visibles, comme durant une course où les individus peuvent être obscurcis ou dans des poses inhabituelles.
Il y a différents facteurs qui affectent la précision de la reconnaissance, comme les conditions d'éclairage, les angles des photos et la présence de boue. La boue peut créer des motifs d'obstruction uniques que les modèles standards n'ont pas été formés pour gérer.
Évaluation des modèles
Des tests initiaux sur les ensembles de données utilisant des modèles avancés actuels ont montré qu'ils étaient peu efficaces pour les deux tâches : reconnaître du texte et identifier des personnes. Pour la reconnaissance de texte, les modèles prêts à l'emploi ont atteint une précision moyenne d'environ 15 %, tandis que l'identification des personnes a atteint environ 33 %. Ça montre un écart significatif entre l'entraînement sur des ensembles de données typiques et les conditions du monde réel.
Quand les mêmes modèles ont été ajustés pour mieux s'adapter aux spécificités de ces ensembles, les performances se sont améliorées mais sont restées insuffisantes. Après ajustement, les meilleurs modèles ont atteint environ 53 % de précision pour la reconnaissance de texte et environ 79 % pour l'identification des coureurs. Cependant, ça montre qu'il y a encore beaucoup de domaines à améliorer.
Observations des ensembles de données
Les ensembles de données mettent en lumière quelques problèmes communs qui freinent les performances dans des environnements réels.
Obstruction par la boue : Le plus gros défi, c'est la boue, qui masque les coureurs et leurs numéros. La boue peut cacher des détails critiques, rendant difficile pour les modèles de reconnaître les numéros qui sont partiellement ou complètement cachés.
Poses variées : Les coureurs adoptent plein de positions différentes pendant les courses, comme sauter ou tomber. Ces poses ne sont pas typiquement trouvées dans des ensembles de données standards, ce qui rend plus dur pour les modèles de les identifier correctement.
Éclairage et résolution : L'éclairage pendant une course peut varier énormément, entraînant des reflets ou des ombres qui déroutent les modèles de reconnaissance. Beaucoup d'images sont également prises de loin, ce qui donne une basse résolution qui diminue la qualité des détails.
Contexte complexe : Les courses peuvent impliquer de nombreux coureurs dans une seule image, rendant difficile de se concentrer sur des numéros individuels. Les arrière-plans encombrés ajoutent à la complexité.
Conditions dynamiques : Le comportement des coureurs peut changer au cours de la course, affectant leur apparence dans différentes images. Ça demande aux modèles de s'adapter à diverses apparences pour la même personne.
Résultats des modèles de reconnaissance de texte
La tâche de reconnaissance de texte a évalué deux modèles avancés : YAMTS et SwinTS. Les deux modèles ont d'abord été testés avec leurs réglages d'origine puis affinés pour les besoins spécifiques des ensembles de données. Les versions affinées ont montré une amélioration significative, avec des scores de détection atteignant le milieu des 70 pour les scores F1.
La performance variait selon les conditions présentes dans les images. Par exemple, quand les numéros étaient obscurcis par la boue, les modèles avaient du mal à les identifier correctement. Cependant, ils réussissaient mieux quand les images étaient claires. Ça indique que les capacités de reconnaissance peuvent être grandement affectées par l'environnement dans lequel les images ont été prises.
Résultats des modèles d'identification de personnes
De même, la tâche d'identification des personnes a révélé que les modèles pré-entraînés ont mal performé lorsqu'ils ont été appliqués directement aux nouveaux ensembles de données. Les meilleurs scores de précision étaient toujours en dessous de 35 %.
L'ajustement de ces modèles pour le nouvel environnement a amélioré les résultats, avec les meilleurs modèles atteignant un taux de précision de plus de 79 %. Il est clair que l'adaptation des modèles aux spécificités de leur environnement est cruciale pour les applications dans le monde réel.
Analyse qualitative de la performance des modèles
Un examen détaillé de la performance des modèles a mis en évidence à la fois leurs forces et leurs faiblesses.
Dans les scénarios où il y avait peu d'Obstructions, les modèles pouvaient détecter et identifier les coureurs de manière efficace. Cependant, dans des conditions difficiles comme une forte boue ou un fond complexe, les modèles n'ont pas bien réussi.
Certains des défis incluaient :
- Détecter des numéros plus petits sur des casques, souvent ratés à cause de la boue.
- Reconnaître des numéros situés de manière étrange, ce qui a conduit à des identifications incorrectes.
- Numéros qui se chevauchent, ce qui a embrouillé les modèles, conduisant à des lectures incorrectes.
Ces observations montrent que bien que des améliorations aient été faites, des défis importants subsistent, surtout dans des conditions boueuses ou chaotiques.
Conclusion
En résumé, les ensembles de données créés à partir de courses de motos tout-terrain représentent une avancée significative dans la compréhension de comment les technologies actuelles galèrent avec les applications dans le monde réel. Les défis présentés par ces ensembles révèlent où la recherche et le développement supplémentaires sont nécessaires.
À mesure que la technologie continue d'évoluer, il y a une grande opportunité d'améliorations dans la reconnaissance de texte et l'identification de personnes dans des circonstances difficiles. En apprenant des lacunes mises en lumière dans cette recherche, les développements futurs peuvent conduire à de meilleures solutions qui abordent ces obstacles de manière efficace.
Globalement, ces efforts profiteront non seulement à l'analyse sportive, mais pourraient aussi avoir des applications plus larges dans des domaines requérant des capacités de reconnaissance robustes dans des environnements variés.
L'introduction de ces ensembles de données constitue une étape cruciale pour motiver de nouveaux progrès dans le domaine, ouvrant la voie à des innovations qui améliorent la capacité d'interpréter des images complexes trouvées dans des contextes réels.
Titre: Beyond the Mud: Datasets and Benchmarks for Computer Vision in Off-Road Racing
Résumé: Despite significant progress in optical character recognition (OCR) and computer vision systems, robustly recognizing text and identifying people in images taken in unconstrained \emph{in-the-wild} environments remain an ongoing challenge. However, such obstacles must be overcome in practical applications of vision systems, such as identifying racers in photos taken during off-road racing events. To this end, we introduce two new challenging real-world datasets - the off-road motorcycle Racer Number Dataset (RND) and the Muddy Racer re-iDentification Dataset (MUDD) - to highlight the shortcomings of current methods and drive advances in OCR and person re-identification (ReID) under extreme conditions. These two datasets feature over 6,300 images taken during off-road competitions which exhibit a variety of factors that undermine even modern vision systems, namely mud, complex poses, and motion blur. We establish benchmark performance on both datasets using state-of-the-art models. Off-the-shelf models transfer poorly, reaching only 15% end-to-end (E2E) F1 score on text spotting, and 33% rank-1 accuracy on ReID. Fine-tuning yields major improvements, bringing model performance to 53% F1 score for E2E text spotting and 79% rank-1 accuracy on ReID, but still falls short of good performance. Our analysis exposes open problems in real-world OCR and ReID that necessitate domain-targeted techniques. With these datasets and analysis of model limitations, we aim to foster innovations in handling real-world conditions like mud and complex poses to drive progress in robust computer vision. All data was sourced from PerformancePhoto.co, a website used by professional motorsports photographers, racers, and fans. The top-performing text spotting and ReID models are deployed on this platform to power real-time race photo search.
Auteurs: Jacob Tyo, Motolani Olarinre, Youngseog Chung, Zachary C. Lipton
Dernière mise à jour: 2024-02-12 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2402.08025
Source PDF: https://arxiv.org/pdf/2402.08025
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.