Faire avancer la recherche OCR-VQA pour le vietnamien
Présentation du dataset ViOCRVQA pour améliorer les réponses aux questions visuelles en vietnamien.
― 10 min lire
Table des matières
- Contexte
- Contributions
- Création du Dataset
- Nettoyage des Données
- Création de Modèles de Questions
- Statistiques du Dataset
- Comparaison avec d'autres Datasets
- Méthodes de Réponses à des Questions Visuelles
- Importance des Systèmes OCR
- Le Rôle des Objets dans le VQA
- Effets de la Longueur des Questions et des Réponses
- Conclusion et Travaux Futurs
- Source originale
- Liens de référence
La Reconnaissance Optique de Caractères - Réponses à des Questions Visuelles (OCR-VQA) est une tâche qui consiste à répondre à des questions basées sur du texte trouvé dans des images. Ce domaine a connu une croissance significative en anglais. Cependant, il y a eu peu de recherches sur cette tâche dans des langues avec moins de ressources, comme le vietnamien. Pour combler cette lacune, on présente un nouveau dataset nommé ViOCRVQA, qui se compose de plus de 28 000 images et de plus de 120 000 paires question-réponse. Toutes les images de ce dataset comprennent du texte et des questions liées à ce texte.
Dans nos études, on a adapté des méthodes utilisées pour l'anglais et les a testées sur notre dataset vietnamien. On a rencontré plusieurs défis uniques à la langue vietnamienne. De plus, on a développé une nouvelle méthode appelée VisionReader, qui a obtenu un score de 0.4116 pour la Correspondance Exacte (EM) et de 0.6990 pour le score F1 sur notre ensemble de test. Nos résultats montrent que les systèmes OCR jouent un rôle crucial pour aider les modèles VQA à comprendre les informations dans le dataset ViOCRVQA. Les objets dans les images contribuent aussi à améliorer la performance du modèle. Notre dataset est disponible publiquement pour des recherches supplémentaires sur les tâches OCR-VQA en vietnamien.
Contexte
Les récentes avancées technologiques ont augmenté l'efficacité des machines, surtout dans le domaine de l'Intelligence Artificielle (IA). La fusion du Traitement Automatique des Langues (TAL) et de la Vision par Ordinateur (VO) a créé de nouvelles solutions dans de nombreux domaines. Les chercheurs se concentrent sur la création de modèles capables de gérer plusieurs types de données, permettant une meilleure compréhension et réponse aux questions liées aux images et à la langue. Cette tâche a une importance en recherche et est de plus en plus appliquée dans la vie quotidienne, car elle imite comment les humains apprennent en intégrant différents types d'informations.
Au cours des cinq dernières années, la recherche sur le VQA en anglais a fortement augmenté, tandis que les études dans les langues à faibles ressources restent limitées. On a créé le dataset ViOCRVQA pour améliorer la tâche OCR-VQA pour le vietnamien, comprenant 28 282 images et 123 781 paires question-réponse. Notre dataset est le plus grand disponible pour l'étude du VQA en vietnamien et inclut des questions sur des titres, des auteurs et des éditeurs. On a aussi utilisé un processus semi-automatique pour créer des questions et gagner du temps sur les annotations manuelles, ce qui a donné des modèles de questions diversifiés.
Le dataset ViOCRVQA sert de ressource précieuse pour évaluer la capacité des modèles VQA à comprendre le texte dans les images. On a réalisé une analyse approfondie et découvert que les objets dans les images affectent significativement le contenu affiché. Avec ces idées, on a développé une nouvelle méthode appelée VisionReader qui combine les informations provenant des objets et du texte.
Contributions
Nos principales contributions sont les suivantes :
- On a créé le premier dataset à grande échelle et de haute qualité pour la tâche OCR-VQA en vietnamien, en mettant l'accent sur les images contenant du texte, notamment les couvertures de livres.
- On a fourni des conseils sur la conception des expériences et l'évaluation des résultats des modèles VQA en utilisant différentes méthodes de pointe sur le dataset ViOCRVQA.
- On a développé une nouvelle méthode qui dépasse les méthodes existantes, démontrant la capacité à comprendre les liens entre les objets et le texte dans les images.
- On a souligné l'importance des systèmes OCR dans la tâche OCR-VQA et montré comment la relation entre les objets et le texte mène à des réponses plus précises des modèles VQA.
Création du Dataset
Le dataset ViOCRVQA a été construit en utilisant une approche semi-automatique. On a collecté des images de couvertures de livres à partir de librairies en ligne. Sur ces sites, les livres sont affichés avec leurs couvertures et les informations associées. On a rassemblé des images de couvertures et des métadonnées et organisé ces métadonnées en catégories spécifiques.
Dans la tâche OCR-VQA, l'accent principal est mis sur l'extraction d'informations à partir d'images avec du texte, en particulier les couvertures de livres, qui incluent souvent des détails importants comme les titres, les auteurs et les éditeurs. On a soigneusement sélectionné des images contenant du texte vietnamien.
Nettoyage des Données
Lors du traitement initial des informations sur les livres, on a supprimé les signes de ponctuation et les détails non pertinents qui n'étaient pas présents sur les couvertures de livres. Cette décision visait à améliorer la cohérence et la qualité des données.
Création de Modèles de Questions
On a employé des locuteurs natifs vietnamiens pour créer des questions, en se concentrant sur différents aspects comme les auteurs, les titres de livres, les éditeurs, les traducteurs et les genres vus sur les couvertures de livres. Chaque annotateur a généré une variété de questions pour assurer un contenu diversifié. On a compilé plus de 60 questions uniques dans ces catégories, totalisant 300 questions riches et diverses.
Les questions de notre dataset se déclinent en cinq catégories :
- Auteur : Questions sur l'auteur du livre.
- Titre : Questions sur le titre du livre.
- Éditeur : Questions sur qui a publié le livre.
- Traducteur : Questions sur le traducteur du livre.
- Genre : Questions concernant le genre du livre.
Statistiques du Dataset
Le dataset ViOCRVQA se compose de 28 282 images et de 123 781 paires question-réponse. Environ 30 % du nombre total d'images, ainsi que toutes les questions et réponses, ont été choisies pour les ensembles de validation et de test. Chaque ensemble représente environ 15 % du nombre total d'images, tandis que le reste est utilisé pour l'entraînement. On a veillé à un processus de sélection aléatoire pour créer ces ensembles.
Le dataset présente une variété d'auteurs, de titres et d'éditeurs, reflétant la diversité linguistique présente dans la littérature vietnamienne. Chaque image a en moyenne 4,37 questions associées, ce qui met en évidence l'interaction entre les images et la langue.
Comparaison avec d'autres Datasets
On a comparé le dataset ViOCRVQA avec des datasets VQA existants en anglais, comme le dataset OCR-VQA-200k, qui contient plus de 200 000 images. Bien que notre dataset ne soit peut-être pas aussi vaste en termes d'images, il possède un grand nombre de paires question-réponse, démontrant l'utilisation efficace des informations recueillies à partir des images.
Méthodes de Réponses à des Questions Visuelles
Le VQA reste une tâche difficile pour les communautés de vision par ordinateur et de traitement du langage naturel. Étant donné une image et une question en langage naturel, un modèle VQA doit déduire la réponse basée sur les caractéristiques de l'image et les caractéristiques linguistiques.
Les études VQA précoces impliquaient l'utilisation de divers modèles pour analyser les images et les questions, menant à une série d'avancées notables dans ce domaine. Plus récemment, l'introduction de modèles de transformateurs a considérablement changé la façon dont les tâches VQA sont abordées. En s'appuyant sur de grands modèles de langage comme BERT et d'autres, des études ont démontré des capacités améliorées dans la compréhension et le traitement des informations visuelles et textuelles.
Importance des Systèmes OCR
Dans notre recherche, on a découvert que la qualité du système OCR affecte considérablement la performance des modèles VQA. On a analysé comment la capacité du système OCR à reconnaître du texte impacte la précision des réponses fournies par les modèles VQA.
Lorsque l'on a évalué la performance du système OCR, on a divisé l'ensemble de test en fonction du pourcentage de texte correctement identifié. Les résultats ont montré qu'à mesure que plus de texte était détecté avec succès, la performance s'améliorait. Même avec une reconnaissance OCR parfaite, les métriques de performance étaient modérément acceptables, indiquant les défis persistants auxquels font face les modèles VQA.
Le Rôle des Objets dans le VQA
Tout au long de notre travail, on a affirmé l'importance des objets dans les images lors de la détermination des réponses. Pour tester cela, on a effectué des expériences en supprimant les caractéristiques des objets de nos modèles. Cela a entraîné une réduction des performances dans divers domaines, sauf lors de la réponse à des questions liées aux éditeurs.
De plus, on a démontré que sans les caractéristiques OCR, la performance chutait de manière drastique. Les résultats ont montré à quel point l'OCR est intégral pour les tâches VQA. Améliorer la performance de l'OCR reste l'un des meilleurs moyens d'avancer dans les tâches OCR-VQA.
Effets de la Longueur des Questions et des Réponses
On a exploré comment les longueurs des questions et des réponses influencent la performance du modèle. En classant les longueurs en courtes, moyennes, longues et très longues, on a observé que les questions plus courtes donnent de meilleurs résultats. À l'inverse, les questions et réponses trop longues diluent l'information d'entrée, entraînant des résultats moins efficaces.
Notre analyse a révélé qu'à mesure que la taille du dataset s'agrandissait, la performance du modèle s'améliorait constamment. Cependant, une fois que le dataset a atteint un certain seuil, les gains de performance supplémentaires sont devenus minimes.
Conclusion et Travaux Futurs
En résumé, le dataset ViOCRVQA représente une avancée significative pour la recherche OCR-VQA en vietnamien. Il se compose de 28 282 images et de 123 781 paires question-réponse, ce qui en fait le plus grand dataset pour cette tâche dans la littérature vietnamienne. On a introduit la méthode VisionReader, qui excelle dans la gestion des tâches OCR-VQA et met en évidence le rôle crucial de l'OCR dans la génération de réponses précises.
Les recherches futures se concentreront sur l'incorporation de grands modèles de vision et de langage pour améliorer davantage les performances des tâches OCR-VQA. On vise aussi à examiner l'efficacité de différents systèmes OCR et à explorer le potentiel des modèles multitâches. L'exploration des techniques d'apprentissage par renforcement pourrait offrir des pistes supplémentaires pour améliorer la qualité des modèles OCR-VQA sur le dataset ViOCRVQA.
Titre: ViOCRVQA: Novel Benchmark Dataset and Vision Reader for Visual Question Answering by Understanding Vietnamese Text in Images
Résumé: Optical Character Recognition - Visual Question Answering (OCR-VQA) is the task of answering text information contained in images that have just been significantly developed in the English language in recent years. However, there are limited studies of this task in low-resource languages such as Vietnamese. To this end, we introduce a novel dataset, ViOCRVQA (Vietnamese Optical Character Recognition - Visual Question Answering dataset), consisting of 28,000+ images and 120,000+ question-answer pairs. In this dataset, all the images contain text and questions about the information relevant to the text in the images. We deploy ideas from state-of-the-art methods proposed for English to conduct experiments on our dataset, revealing the challenges and difficulties inherent in a Vietnamese dataset. Furthermore, we introduce a novel approach, called VisionReader, which achieved 0.4116 in EM and 0.6990 in the F1-score on the test set. Through the results, we found that the OCR system plays a very important role in VQA models on the ViOCRVQA dataset. In addition, the objects in the image also play a role in improving model performance. We open access to our dataset at link (https://github.com/qhnhynmm/ViOCRVQA.git) for further research in OCR-VQA task in Vietnamese.
Auteurs: Huy Quang Pham, Thang Kien-Bao Nguyen, Quan Van Nguyen, Dan Quang Tran, Nghia Hieu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen
Dernière mise à jour: 2024-04-28 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2404.18397
Source PDF: https://arxiv.org/pdf/2404.18397
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.