Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Multimédia

Améliorer TextVQA avec la méthode Séparer et Localiser

Une nouvelle approche améliore la précision pour répondre aux questions sur le texte dans les images.

― 7 min lire


La méthode SaL amélioreLa méthode SaL améliorela précision du TextVQA.visuelles.capacités de réponse aux questionsUne nouvelle technique améliore les
Table des matières

Le Text-based Visual Question Answering (TextVQA) désigne un domaine qui se concentre sur la réponse à des questions concernant le texte trouvé dans des images. Cette tâche nécessite qu'un modèle reconnaisse et comprenne l'interaction entre le texte présent dans les images et les informations visuelles qui l'accompagnent. Le défi vient du fait que le texte dans les images ne forme souvent pas des phrases cohérentes, ce qui rend difficile l'utilisation de modèles traditionnels entraînés sur un langage bien structuré.

La plupart des approches dans ce domaine impliquent la conception de structures de réseau complexes ou l'utilisation de tâches d'entraînement spécialisées. Elles reposent généralement sur la Reconnaissance Optique de Caractères (OCR), qui convertit le texte dans les images en un format lisible. Cependant, ces méthodes traitent souvent le texte extrait comme s'il faisait partie d'une phrase en langage naturel, négligeant le fait que de nombreux mots reconnus par l'OCR n'ont pas de relations significatives entre eux.

Cet article présente une nouvelle méthode qui aborde ces lacunes en se concentrant sur la manière dont le texte est traité dans les questions basées sur des images.

Problèmes des Approches Actuelles

Les méthodes actuelles présentent quelques problèmes notables. Premièrement, elles assemblent souvent les mots extraits par l'OCR dans l'ordre où ils apparaissent-de gauche à droite et de haut en bas-créant une séquence qui imite une phrase en langage naturel. Cependant, beaucoup de ces mots de l'OCR manquent de connexions significatives, ce qui peut créer de la confusion lors du processus de raisonnement nécessaire pour répondre aux questions basées sur le texte et les images.

Deuxièmement, l'encodage de position utilisé dans de nombreux modèles considère typiquement seulement l'arrangement linéaire des mots. Ceci est problématique car la représentation visuelle du texte dans les images a une disposition spatiale en deux dimensions. L'arrangement simple de gauche à droite ou de haut en bas ne parvient pas à capturer les relations complexes entre les mots situés proches les uns des autres dans une image.

Solution Proposée : Séparer et Localiser (SaL)

Pour résoudre ces problèmes, une nouvelle méthode est introduite, connue sous le nom de Séparer et Localiser (SaL). Cette approche se compose de deux composants principaux conçus pour améliorer la façon dont les modèles gèrent le texte dans les images.

Module de Séparation Sémantique de Texte (TSS)

La première partie de SaL est le module de Séparation Sémantique de Texte (TSS). Ce composant vise à identifier si les mots dans les images ont des relations sémantiques. Plutôt que de fusionner tout le texte OCR en une seule séquence, le TSS sépare les mots qui n'ont pas de connexions significatives. En faisant cela, le modèle peut réduire le bruit créé en traitant des mots non liés comme une phrase cohérente. Par conséquent, le modèle peut mieux apprendre les relations entre différents textes OCR et améliorer sa capacité à répondre aux questions liées à ces textes.

Module de Position Circulaire Spatiale (SCP)

La deuxième partie de SaL est le module de Position Circulaire Spatiale (SCP). Ce module se concentre sur les relations spatiales entre les textes OCR dans une image. Il reconnaît que les mots placés proches les uns des autres pourraient être plus susceptibles d'être pertinents les uns pour les autres. Le module SCP calcule les distances spatiales entre différents textes OCR, fournissant une représentation plus précise de leurs positions dans l'image. Au lieu de se fier à un encodage de position linéaire, qui est insuffisant, le SCP prend en compte la disposition bidimensionnelle du texte, améliorant ainsi la capacité du modèle à comprendre le contexte environnant.

Expériences et Résultats

Pour évaluer l'efficacité de la méthode SaL, des expériences ont été menées sur deux ensembles de données connus sous le nom de TextVQA et ST-VQA. Ces ensembles de données sont des références couramment utilisées dans le domaine de la réponse à des questions visuelles.

Évaluation de Performance

Les résultats des expériences ont montré que le modèle SaL surpassait les méthodes existantes. Comparé à des modèles de référence, SaL a réalisé des gains significatifs en précision. Notamment, même sans aucune pré-formation, qui est souvent nécessaire pour de nombreux modèles à la pointe de la technologie, SaL a montré de meilleures performances sur les deux ensembles de données.

Importance des Modules

Une analyse plus approfondie a été effectuée pour comprendre l'impact des modules TSS et SCP individuellement. Les résultats ont démontré que les deux modules contribuaient positivement à la performance. Le module TSS, en séparant avec succès des mots non liés, a amélioré le processus d'apprentissage du modèle. Le module SCP a renforcé la sensibilisation spatiale du modèle, lui permettant de comprendre plus précisément les positions des textes OCR. Ensemble, ces modules ont conduit à des améliorations substantielles en précision de réponse.

Travaux Connexes

Plusieurs approches précédentes en TextVQA se sont concentrées sur l'interaction entre le texte et les éléments visuels. Certaines méthodologies impliquent la création de jeux de données dédiés pour améliorer la compréhension du texte de scène. Divers modèles ont été proposés mettant l'accent sur les relations entre le texte OCR et les objets visuels. Chacun de ces modèles a ses forces, mais ils négligent souvent le manque de connexions significatives dans les sorties OCR ainsi que les complexités spatiales.

Tâches Vision-Langue

Avec l'émergence de tâches multi-modales en apprentissage automatique, les chercheurs ont commencé à envisager comment combler le fossé entre le langage et le contenu visuel. L'intégration du texte de scène dans les tâches de réponse à des questions visuelles est une progression naturelle. Cependant, beaucoup de ces solutions échouent encore à traiter les problèmes fondamentaux de pertinence sémantique et de positionnement spatial.

Conclusion

En résumé, la méthode Séparer et Localiser (SaL) représente une avancée significative dans le domaine de la réponse à des questions visuelles basées sur du texte. En introduisant les modules TSS et SCP, SaL permet une interaction plus précise et significative entre les textes OCR et les informations visuelles. Les expériences menées montrent que cette approche améliore non seulement la précision, mais ouvre également la voie à une meilleure compréhension et raisonnement dans des scénarios visuels complexes.

Le développement de cette méthode encourage une exploration plus poussée sur la façon dont les informations textuelles peuvent être utilisées plus efficacement dans des contextes visuels, ce qui pourrait mener à des modèles plus robustes à l'avenir. Cette recherche souligne l'importance de reconnaître les défis uniques posés par les textes OCR dans les images et la nécessité de solutions innovantes pour relever ces défis.

Source originale

Titre: Separate and Locate: Rethink the Text in Text-based Visual Question Answering

Résumé: Text-based Visual Question Answering (TextVQA) aims at answering questions about the text in images. Most works in this field focus on designing network structures or pre-training tasks. All these methods list the OCR texts in reading order (from left to right and top to bottom) to form a sequence, which is treated as a natural language ``sentence''. However, they ignore the fact that most OCR words in the TextVQA task do not have a semantical contextual relationship. In addition, these approaches use 1-D position embedding to construct the spatial relation between OCR tokens sequentially, which is not reasonable. The 1-D position embedding can only represent the left-right sequence relationship between words in a sentence, but not the complex spatial position relationship. To tackle these problems, we propose a novel method named Separate and Locate (SaL) that explores text contextual cues and designs spatial position embedding to construct spatial relations between OCR texts. Specifically, we propose a Text Semantic Separate (TSS) module that helps the model recognize whether words have semantic contextual relations. Then, we introduce a Spatial Circle Position (SCP) module that helps the model better construct and reason the spatial position relationships between OCR texts. Our SaL model outperforms the baseline model by 4.44% and 3.96% accuracy on TextVQA and ST-VQA datasets. Compared with the pre-training state-of-the-art method pre-trained on 64 million pre-training samples, our method, without any pre-training tasks, still achieves 2.68% and 2.52% accuracy improvement on TextVQA and ST-VQA. Our code and models will be released at https://github.com/fangbufang/SaL.

Auteurs: Chengyang Fang, Jiangnan Li, Liang Li, Can Ma, Dayong Hu

Dernière mise à jour: 2023-08-30 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.16383

Source PDF: https://arxiv.org/pdf/2308.16383

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires