Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Faire avancer la reconnaissance de texte vidéo avec DSText

Un nouveau repère pour reconnaître du texte petit et dense dans les vidéos.

― 6 min lire


DSText : Pousser lesDSText : Pousser leslimites du texte vidéode la reconnaissance de texte vidéo.Un référentiel qui s'attaque aux défis
Table des matières

La lecture de texte dans les vidéos devient super importante dans la vision par ordinateur. Ce domaine se concentre sur la recherche, le Suivi et la reconnaissance de texte dans les vidéos. Mais bon, la plupart des méthodes actuelles sont faites pour du texte de taille normale et galèrent avec le texte petit ou dense. C'est ce défi qu'on veut relever.

Objectifs

Dans ce travail, on a créé un nouveau benchmark appelé DSText, qui se concentre sur la reconnaissance de texte petit et dense dans les vidéos. Le but, c'est de mieux comprendre comment les méthodes actuelles se débrouillent face à ces challenges spécifiques. Le dataset DSText inclut plein de clips vidéo et de scénarios pour rendre les tests d'algorithmes plus complets.

Dataset

Le dataset DSText se compose de 100 clips vidéo pris de sources variées. Il prend en charge deux tâches principales : suivre le texte dans les vidéos et repérer le texte du début à la fin. Chaque vidéo montre du texte qui est soit dense, soit petit, ce qui en fait une ressource unique pour les chercheurs.

On voulait s'assurer que le dataset ait trois défis principaux :

  1. Du texte dense qui est plus difficile à repérer.
  2. Une grande quantité de petits textes.
  3. Divers scénarios comme des sports et des jeux, ce qui ajoute à la complexité.

Aperçu de la Compétition

On a organisé une compétition pour tester différentes méthodes sur ce nouveau dataset. La compète s'est déroulée du 15 février 2023 au 20 mars 2023, avec 24 équipes qui ont soumis environ 30 entrées valides. Le but était de voir quelle méthode pouvait mieux gérer le texte dense et petit dans les vidéos.

Travaux Précédents

Il y a d'autres benchmarks qui ont été utilisés dans le passé pour repérer du texte dans les vidéos. Cependant, ces benchmarks se concentrent principalement sur des scénarios de texte plus faciles. Par exemple, le benchmark ICDAR2015 a été introduit en 2015 et traite surtout du texte courant trouvé en extérieur. D'autres datasets se concentrent sur des domaines spécifiques, comme les vidéos de conduite, mais ils ne proposent pas la même variété de défis que DSText.

Limitations des Benchmarks Précédents

Beaucoup de datasets existants n'incluent pas efficacement du texte petit ou dense. Ils ne représentent souvent pas des cas difficiles dans des situations réelles. De plus, certains benchmarks manquent de maintenance, ce qui les rend moins utilisables avec le temps. Ça peut freiner le développement de nouvelles technologies dans la lecture de texte vidéo.

Le benchmark DSText vise à combler ces lacunes. En introduisant du contenu plus difficile, on espère encourager le développement de meilleurs algorithmes.

Caractéristiques Clés de DSText

DSText a des caractéristiques distinctes :

  1. Il couvre une grande variété de scénarios, ce qui le rend plus complet.
  2. Il a une plus grande proportion de petits textes, qui sont difficiles à détecter pour les algorithmes actuels.
  3. Il montre une distribution dense d'instances de texte par image, augmentant le défi de reconnaissance du texte.

Tâches de la Compétition

La compétition comportait deux tâches principales :

Tâche 1 : Suivi de Texte Vidéo

Dans cette tâche, les participants devaient suivre le texte tout au long d'une vidéo. Ils devaient identifier et maintenir l'emplacement des instances de texte au fil du temps. Chaque équipe a soumis ses résultats dans un format spécifié.

Tâche 2 : Repérage de Texte Vidéo de A à Z

Dans cette tâche, les participants devaient détecter, suivre et reconnaître le texte dans les vidéos. Cela nécessitait une compréhension complète du contenu textuel, pas seulement de son emplacement. Les équipes devaient aussi suivre des règles spécifiques concernant l'évaluation de leurs résultats.

Métriques d'Évaluation

Pour analyser la performance des différentes méthodes, on a utilisé plusieurs métriques d'évaluation. Ces métriques sont essentielles pour déterminer à quel point chaque approche a bien fonctionné. Elles évaluent à la fois la précision du suivi et la reconnaissance du texte.

Résultats

La fin de la compétition a donné des résultats intéressants. On a reçu des soumissions de diverses équipes, chacune apportant de nouvelles idées et techniques. Les soumissions ont montré différentes approches pour relever les défis posés par les instances de texte dense et petit. Plusieurs équipes ont utilisé des techniques avancées et des modèles existants pour améliorer leur performance. Cependant, beaucoup de méthodes montrent encore une marge d'amélioration.

Observations des Soumissions

Certaines équipes ont utilisé plusieurs modèles et datasets pour améliorer leurs résultats. Combiner différentes approches a souvent conduit à de meilleures performances. Cependant, ça peut créer des systèmes complexes qui peuvent ralentir les temps de traitement, un point à prendre en compte pour les futurs travaux.

Conclusion

Le benchmark DSText représente un grand pas en avant dans la lecture de texte vidéo. En se concentrant sur du texte petit et dense, on espère inspirer de nouvelles recherches et avancées dans ce domaine. Les résultats de notre compétition offrent des perspectives précieuses sur les méthodes actuelles et leurs limites.

Travaux Futurs

À l'avenir, on prévoit de continuer à améliorer le benchmark et fournir plus de ressources pour la recherche. On espère encourager des approches plus innovantes dans la lecture de texte vidéo, menant finalement à de meilleures technologies capables de gérer du texte dans diverses situations.

Remerciements

Ce travail n'aurait pas été possible sans le soutien de diverses personnes et organisations qui ont contribué par leur savoir et leur temps au projet. Leurs idées se sont révélées précieuses pour orienter le développement du benchmark et de la compétition.

Source originale

Titre: ICDAR 2023 Video Text Reading Competition for Dense and Small Text

Résumé: Recently, video text detection, tracking, and recognition in natural scenes are becoming very popular in the computer vision community. However, most existing algorithms and benchmarks focus on common text cases (e.g., normal size, density) and single scenarios, while ignoring extreme video text challenges, i.e., dense and small text in various scenarios. In this competition report, we establish a video text reading benchmark, DSText, which focuses on dense and small text reading challenges in the video with various scenarios. Compared with the previous datasets, the proposed dataset mainly include three new challenges: 1) Dense video texts, a new challenge for video text spotter. 2) High-proportioned small texts. 3) Various new scenarios, e.g., Game, sports, etc. The proposed DSText includes 100 video clips from 12 open scenarios, supporting two tasks (i.e., video text tracking (Task 1) and end-to-end video text spotting (Task 2)). During the competition period (opened on 15th February 2023 and closed on 20th March 2023), a total of 24 teams participated in the three proposed tasks with around 30 valid submissions, respectively. In this article, we describe detailed statistical information of the dataset, tasks, evaluation protocols and the results summaries of the ICDAR 2023 on DSText competition. Moreover, we hope the benchmark will promise video text research in the community.

Auteurs: Weijia Wu, Yuzhong Zhao, Zhuang Li, Jiahong Li, Mike Zheng Shou, Umapada Pal, Dimosthenis Karatzas, Xiang Bai

Dernière mise à jour: 2023-04-10 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.04376

Source PDF: https://arxiv.org/pdf/2304.04376

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires