Faire avancer la reconnaissance de texte vidéo avec DSText
Un nouveau repère pour reconnaître du texte petit et dense dans les vidéos.
― 6 min lire
Table des matières
La lecture de texte dans les vidéos devient super importante dans la vision par ordinateur. Ce domaine se concentre sur la recherche, le Suivi et la reconnaissance de texte dans les vidéos. Mais bon, la plupart des méthodes actuelles sont faites pour du texte de taille normale et galèrent avec le texte petit ou dense. C'est ce défi qu'on veut relever.
Objectifs
Dans ce travail, on a créé un nouveau benchmark appelé DSText, qui se concentre sur la reconnaissance de texte petit et dense dans les vidéos. Le but, c'est de mieux comprendre comment les méthodes actuelles se débrouillent face à ces challenges spécifiques. Le dataset DSText inclut plein de clips vidéo et de scénarios pour rendre les tests d'algorithmes plus complets.
Dataset
Le dataset DSText se compose de 100 clips vidéo pris de sources variées. Il prend en charge deux tâches principales : suivre le texte dans les vidéos et repérer le texte du début à la fin. Chaque vidéo montre du texte qui est soit dense, soit petit, ce qui en fait une ressource unique pour les chercheurs.
On voulait s'assurer que le dataset ait trois défis principaux :
- Du texte dense qui est plus difficile à repérer.
- Une grande quantité de petits textes.
- Divers scénarios comme des sports et des jeux, ce qui ajoute à la complexité.
Aperçu de la Compétition
On a organisé une compétition pour tester différentes méthodes sur ce nouveau dataset. La compète s'est déroulée du 15 février 2023 au 20 mars 2023, avec 24 équipes qui ont soumis environ 30 entrées valides. Le but était de voir quelle méthode pouvait mieux gérer le texte dense et petit dans les vidéos.
Travaux Précédents
Il y a d'autres benchmarks qui ont été utilisés dans le passé pour repérer du texte dans les vidéos. Cependant, ces benchmarks se concentrent principalement sur des scénarios de texte plus faciles. Par exemple, le benchmark ICDAR2015 a été introduit en 2015 et traite surtout du texte courant trouvé en extérieur. D'autres datasets se concentrent sur des domaines spécifiques, comme les vidéos de conduite, mais ils ne proposent pas la même variété de défis que DSText.
Limitations des Benchmarks Précédents
Beaucoup de datasets existants n'incluent pas efficacement du texte petit ou dense. Ils ne représentent souvent pas des cas difficiles dans des situations réelles. De plus, certains benchmarks manquent de maintenance, ce qui les rend moins utilisables avec le temps. Ça peut freiner le développement de nouvelles technologies dans la lecture de texte vidéo.
Le benchmark DSText vise à combler ces lacunes. En introduisant du contenu plus difficile, on espère encourager le développement de meilleurs algorithmes.
Caractéristiques Clés de DSText
DSText a des caractéristiques distinctes :
- Il couvre une grande variété de scénarios, ce qui le rend plus complet.
- Il a une plus grande proportion de petits textes, qui sont difficiles à détecter pour les algorithmes actuels.
- Il montre une distribution dense d'instances de texte par image, augmentant le défi de reconnaissance du texte.
Tâches de la Compétition
La compétition comportait deux tâches principales :
Tâche 1 : Suivi de Texte Vidéo
Dans cette tâche, les participants devaient suivre le texte tout au long d'une vidéo. Ils devaient identifier et maintenir l'emplacement des instances de texte au fil du temps. Chaque équipe a soumis ses résultats dans un format spécifié.
Tâche 2 : Repérage de Texte Vidéo de A à Z
Dans cette tâche, les participants devaient détecter, suivre et reconnaître le texte dans les vidéos. Cela nécessitait une compréhension complète du contenu textuel, pas seulement de son emplacement. Les équipes devaient aussi suivre des règles spécifiques concernant l'évaluation de leurs résultats.
Métriques d'Évaluation
Pour analyser la performance des différentes méthodes, on a utilisé plusieurs métriques d'évaluation. Ces métriques sont essentielles pour déterminer à quel point chaque approche a bien fonctionné. Elles évaluent à la fois la précision du suivi et la reconnaissance du texte.
Résultats
La fin de la compétition a donné des résultats intéressants. On a reçu des soumissions de diverses équipes, chacune apportant de nouvelles idées et techniques. Les soumissions ont montré différentes approches pour relever les défis posés par les instances de texte dense et petit. Plusieurs équipes ont utilisé des techniques avancées et des modèles existants pour améliorer leur performance. Cependant, beaucoup de méthodes montrent encore une marge d'amélioration.
Observations des Soumissions
Certaines équipes ont utilisé plusieurs modèles et datasets pour améliorer leurs résultats. Combiner différentes approches a souvent conduit à de meilleures performances. Cependant, ça peut créer des systèmes complexes qui peuvent ralentir les temps de traitement, un point à prendre en compte pour les futurs travaux.
Conclusion
Le benchmark DSText représente un grand pas en avant dans la lecture de texte vidéo. En se concentrant sur du texte petit et dense, on espère inspirer de nouvelles recherches et avancées dans ce domaine. Les résultats de notre compétition offrent des perspectives précieuses sur les méthodes actuelles et leurs limites.
Travaux Futurs
À l'avenir, on prévoit de continuer à améliorer le benchmark et fournir plus de ressources pour la recherche. On espère encourager des approches plus innovantes dans la lecture de texte vidéo, menant finalement à de meilleures technologies capables de gérer du texte dans diverses situations.
Remerciements
Ce travail n'aurait pas été possible sans le soutien de diverses personnes et organisations qui ont contribué par leur savoir et leur temps au projet. Leurs idées se sont révélées précieuses pour orienter le développement du benchmark et de la compétition.
Titre: ICDAR 2023 Video Text Reading Competition for Dense and Small Text
Résumé: Recently, video text detection, tracking, and recognition in natural scenes are becoming very popular in the computer vision community. However, most existing algorithms and benchmarks focus on common text cases (e.g., normal size, density) and single scenarios, while ignoring extreme video text challenges, i.e., dense and small text in various scenarios. In this competition report, we establish a video text reading benchmark, DSText, which focuses on dense and small text reading challenges in the video with various scenarios. Compared with the previous datasets, the proposed dataset mainly include three new challenges: 1) Dense video texts, a new challenge for video text spotter. 2) High-proportioned small texts. 3) Various new scenarios, e.g., Game, sports, etc. The proposed DSText includes 100 video clips from 12 open scenarios, supporting two tasks (i.e., video text tracking (Task 1) and end-to-end video text spotting (Task 2)). During the competition period (opened on 15th February 2023 and closed on 20th March 2023), a total of 24 teams participated in the three proposed tasks with around 30 valid submissions, respectively. In this article, we describe detailed statistical information of the dataset, tasks, evaluation protocols and the results summaries of the ICDAR 2023 on DSText competition. Moreover, we hope the benchmark will promise video text research in the community.
Auteurs: Weijia Wu, Yuzhong Zhao, Zhuang Li, Jiahong Li, Mike Zheng Shou, Umapada Pal, Dimosthenis Karatzas, Xiang Bai
Dernière mise à jour: 2023-04-10 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2304.04376
Source PDF: https://arxiv.org/pdf/2304.04376
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.michaelshell.org/
- https://www.michaelshell.org/tex/ieeetran/
- https://www.ctan.org/tex-archive/macros/latex/contrib/IEEEtran/
- https://www.ieee.org/
- https://www.latex-project.org/
- https://www.michaelshell.org/tex/testflow/
- https://www.ctan.org/tex-archive/macros/latex/contrib/oberdiek/
- https://www.ctan.org/tex-archive/macros/latex/contrib/cite/
- https://www.michaelshell.org/contact.html
- https://rrc.cvc.uab.es/?ch=22
- https://rrc.cvc.uab.es/?ch=3
- https://github.com/ageitgey/face
- https://www.tutorialspoint.com/opencv/opencv