Améliorer la reconnaissance de texte avec un support audio
Une nouvelle méthode améliore la reconnaissance de texte en utilisant des données audio pour une meilleure précision.
― 7 min lire
Table des matières
Lire du texte à partir d'images, c'est un vrai casse-tête qui est bossé depuis des années. Cette tâche est super importante pour plein de trucs comme scanner des documents, aider avec des assistances automatiques et organiser des données. Récemment, on a fait des progrès grâce à l'apprentissage profond, ce qui a mené à de meilleures méthodes pour reconnaître le texte. Mais y'a encore des problèmes, surtout pour corriger les erreurs comme ajouter, enlever ou changer des caractères.
Les infos textuelles et leur Audio sont super liées. Par exemple, une petite erreur sur un caractère peut changer la façon dont le mot sonne. Cette connexion peut être utile pour améliorer la Reconnaissance de texte. Dans cet article, on vous présente une nouvelle méthode appelée AudioOCR, qui utilise l'audio pour aider à reconnaître le texte dans les images. Cette méthode est simple mais efficace et nécessite pas de changements pendant l'utilisation normale.
En testant sept méthodes précédentes sur douze types différents de datasets, on montre qu'AudioOCR améliore toujours les performances. Notamment, ça fonctionne aussi bien dans des situations plus difficiles, comme reconnaître du texte dans d'autres langues, des mots qui ne sont pas dans les données d'Entraînement, et des variations de prononciation.
Contexte
La reconnaissance de texte à partir d'images est un gros défi dans le domaine de la vision par ordinateur. Traditionnellement, ce processus implique le traitement visuel et la compréhension du langage. Le traitement visuel consiste à extraire des caractéristiques des images, tandis que le traitement du langage aide à donner un sens au texte reconnu. Même si ces méthodes ont beaucoup avancé, les erreurs se produisent encore souvent.
L'audio peut fournir des infos cruciales pour guider la reconnaissance de texte. Utiliser l'audio pour soutenir des tâches visuelles a montré son succès dans le passé, aidant à renforcer la compréhension et à améliorer les performances des modèles. Cependant, peu de méthodes ont exploré l'utilisation de l'audio pour aider à reconnaître du texte provenant d'images.
Pour combler cette lacune, on présente AudioOCR, une méthode qui intègre un Décodeur audio probabiliste conçu pour supporter la reconnaissance de texte à travers l'audio. Ce décodeur fonctionne avec les méthodes existantes, n'étant nécessaire que pendant la phase d'entraînement, sans coûts supplémentaires lors de l'utilisation.
Aperçu de la méthode
AudioOCR repose sur l'idée que le texte a toujours un son correct, peu importe sa forme ou sa taille dans une image. Le système a trois parties principales : un encodeur qui traite les images, un décodeur qui prédit des séquences de texte, et un décodeur audio en plus.
L'encodeur d'images traite une image d'entrée pour créer des représentations visuelles. Ce résultat est ensuite envoyé au décodeur de texte qui génère une séquence de caractères prévus. Le décodeur audio, c'est là que le traitement audio se fait. Il utilise un type de modélisation audio pour améliorer le processus de reconnaissance de texte.
Pendant l'entraînement, le système combine les données audio avec les données visuelles pour apprendre comment reconnaître efficacement le texte. Plus précisément, il utilise un système de synthèse vocale pour créer de l'audio correspondant au texte dans les images.
Décodeur audio
Le décodeur audio a trois parties : un Prenet pour préparer les données audio, un décodeur visuel-audio pour relier les caractéristiques audio et visuelles, et une couche Mel Linear qui prédit le spectrogramme mel (une représentation visuelle de l'audio).
Le Prenet aide à traduire les caractéristiques audio en un format qui peut bien s'accorder avec les caractéristiques visuelles. Le décodeur visuel-audio apprend ensuite les relations entre les indices audio et visuels, permettant au système de reconnaître le texte efficacement.
Après l'entraînement, le système peut utiliser ce savoir pour améliorer la précision de la reconnaissance de texte sans avoir besoin de soutien audio supplémentaire en temps réel.
Processus d'entraînement
Pour entraîner le système, on a besoin à la fois d'une perte de reconnaissance (pour mesurer à quel point le système reconnaît bien le texte) et d'une perte audio (pour mesurer à quel point il traite l'audio). En combinant ces deux mesures de perte pendant l'entraînement, le système peut apprendre à améliorer son efficacité.
Le processus d'entraînement utilise divers datasets, y compris des ensembles synthétiques et des benchmarks du monde réel pour valider les méthodes. Ces ensembles incluent des images normales et difficiles avec différents types de texte, s'assurant que le système apprend efficacement sur une variété de scénarios.
Les données audio utilisées proviennent d'un outil de synthèse vocale qui génère l'audio correspondant au texte dans les images. Cette approche permet au système d'apprendre à partir des infos visuelles et audio.
Résultats
En testant AudioOCR, on a mesuré son impact sur sept méthodes existantes différentes à travers divers datasets. Ça a montré des améliorations constantes dans la précision de la reconnaissance de texte.
De plus, les résultats ont indiqué qu'AudioOCR est utile même dans des situations complexes. Par exemple, ça a bien fonctionné sur des langues autres que l'anglais, des mots qui n'étaient pas dans l'ensemble d'entraînement, et du texte avec divers accents.
Grâce à des études d'ablation, on a découvert que l'utilisation de différents accents et la quantité de données audio disponibles pouvaient affecter les performances. En particulier, les voix féminines semblaient donner de meilleurs résultats.
En outre, en expérimentant avec le format des spectrogrammes audio, on a confirmé que l'utilisation du spectrogramme mel améliorait la précision plus que les spectrogrammes linéaires. Ça vient probablement du fait que le spectrogramme mel capture mieux les nuances de l'audio pertinent pour la reconnaissance de texte.
Défis et limitations
Bien que les résultats soient prometteurs, des défis subsistent. Par exemple, la méthode actuelle repose sur des systèmes de synthèse vocale qui ne peuvent peut-être pas produire d'audio pour tous les types de texte, notamment les symboles spéciaux. Élargir cette capacité pourrait améliorer les performances.
Une autre limitation est qu'alors qu'AudioOCR améliore les performances sans coûts supplémentaires lors de l'inférence, ça ajoute un certain coût computationnel pendant l'entraînement. Cela dit, l'augmentation est minime par rapport aux bénéfices obtenus pendant l'utilisation réelle.
Conclusion
AudioOCR présente une nouvelle manière d'améliorer la reconnaissance de texte en utilisant des infos audio, créant un système plus robuste et efficace pour traiter le texte dans les images. Cette méthode améliore non seulement la précision des techniques existantes, mais montre aussi le potentiel de l'intégration audio-visuelle dans le domaine de la vision par ordinateur.
Les avancées réalisées grâce à AudioOCR ouvrent de nouvelles possibilités pour une reconnaissance plus précise du texte dans différentes langues et situations, se rapprochant finalement d'une lecture précise à partir d'images dans des environnements naturels.
Les recherches futures se concentreront sur le perfectionnement du processus de génération audio, l'élargissement des types de texte qui peuvent être reconnus, et la validation de la méthode à travers des datasets et des scénarios variés.
En continuant d'explorer le potentiel de l'audio en conjonction avec les données visuelles, on peut améliorer les systèmes qui aident à comprendre et traiter la richesse d'informations présentes dans les images du quotidien.
Titre: Looking and Listening: Audio Guided Text Recognition
Résumé: Text recognition in the wild is a long-standing problem in computer vision. Driven by end-to-end deep learning, recent studies suggest vision and language processing are effective for scene text recognition. Yet, solving edit errors such as add, delete, or replace is still the main challenge for existing approaches. In fact, the content of the text and its audio are naturally corresponding to each other, i.e., a single character error may result in a clear different pronunciation. In this paper, we propose the AudioOCR, a simple yet effective probabilistic audio decoder for mel spectrogram sequence prediction to guide the scene text recognition, which only participates in the training phase and brings no extra cost during the inference stage. The underlying principle of AudioOCR can be easily applied to the existing approaches. Experiments using 7 previous scene text recognition methods on 12 existing regular, irregular, and occluded benchmarks demonstrate our proposed method can bring consistent improvement. More importantly, through our experimentation, we show that AudioOCR possesses a generalizability that extends to more challenging scenarios, including recognizing non-English text, out-of-vocabulary words, and text with various accents. Code will be available at https://github.com/wenwenyu/AudioOCR.
Auteurs: Wenwen Yu, Mingyu Liu, Biao Yang, Enming Zhang, Deqiang Jiang, Xing Sun, Yuliang Liu, Xiang Bai
Dernière mise à jour: 2023-06-06 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.03482
Source PDF: https://arxiv.org/pdf/2306.03482
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.