Avancées dans le Question Réponse Visuel Centré sur le Texte
Le nouveau dataset Square-10M améliore carrément les capacités de questionnement visuel en open-source.
― 9 min lire
Table des matières
- Le Défi
- Présentation de Square-10M
- Étapes de Création des Données
- Conclusions Clés
- Recherche Associée
- Aperçu de la Stratégie Square
- Processus de Collecte de Données
- Génération de Paires Question-Réponse
- Assurer la Qualité des Données
- Réalisations de TextSquare
- Comparaison avec les Modèles Existants
- Importance des Données de Raisonnement
- Aperçus sur l'Échelle des Données
- Limitations
- Conclusion
- Directions Futures
- Source originale
Les avancées récentes dans la technologie ont conduit au développement d'outils capables de répondre à des questions basées sur des images contenant du texte. Ces outils s'appellent des systèmes de Réponse aux Questions Visuelles Centrés sur le Texte (VQA). Ils utilisent une combinaison de données textuelles et visuelles pour comprendre et répondre aux questions concernant le contenu des images. Malgré des progrès notables, les modèles open-source qui réalisent ces tâches ne s'égalent souvent pas aux performances des systèmes leaders comme GPT4V et Gemini. Cet écart est en grande partie dû à un manque de données de haute qualité utilisées pour entraîner ces modèles.
Le Défi
Beaucoup de modèles open-source galèrent parce qu'ils n'ont pas accès à l'énorme quantité de données d'instructions bien élaborées que possèdent les modèles leaders. Les données de réglage d'instructions aident les modèles à apprendre à répondre avec précision aux questions et à effectuer des tâches efficacement. Ces données sont essentielles à l'entraînement car elles combinent les éléments visuels et textuels dont les modèles ont besoin pour comprendre.
Présentation de Square-10M
Pour résoudre ce problème, une nouvelle approche a été développée pour créer un grand et nouveau jeu de données de réglage d'instructions de haute qualité appelé Square-10M. Ce jeu de données a été construit en utilisant des modèles avancés qui ne sont pas disponibles au public, permettant ainsi de générer des données de haute qualité. Le processus de création implique quatre étapes clés : Auto-Questionnement, Réponse, Raisonnement et Évaluation.
Étapes de Création des Données
Auto-Questionnement
Dans la première étape, le modèle analyse les images et génère des questions liées au texte de ces images. Cela se fait en utilisant des capacités avancées pour comprendre à la fois les aspects visuels et textuels.
Réponse
Après avoir généré les questions, l'étape suivante consiste à fournir des réponses. Ici, différentes techniques sont utilisées pour s'assurer que les réponses sont précises et détaillées.
Raisonnement
La troisième étape implique d'expliquer pourquoi les réponses données sont correctes. Ce raisonnement est crucial car il aide à améliorer la compréhension du modèle et réduit les chances de donner des informations incorrectes ou des "hallucinations".
Évaluation
Enfin, les questions et réponses générées sont évaluées pour s'assurer qu'elles sont significatives et pertinentes. Cette étape aide à améliorer la qualité globale des données et garantit que seuls les meilleurs couples question-réponse sont inclus.
Conclusions Clés
Le développement et les tests du jeu de données Square-10M ont conduit à plusieurs résultats importants.
Amélioration des Performances
Le modèle utilisant le jeu de données Square-10M, nommé TextSquare, a surpassé de manière significative les modèles open-source précédents. Il a établi un nouveau record sur divers benchmarks, surpassant de nombreux modèles de pointe même lors de comparaisons directes. Cela démontre qu'avoir une source riche de données d'instructions peut considérablement améliorer les performances.
Rôle des Données de Raisonnement
L'importance des données de raisonnement a été soulignée lors des expériences. Avoir des informations contextuelles détaillées pour des questions spécifiques a amélioré la précision et réduit les erreurs. Cela a été évident puisque TextSquare a obtenu des scores élevés sur plusieurs ensembles de données d'évaluation.
Volume de Données et Performances du Modèle
Une autre observation cruciale était qu'à mesure que le volume de données de réglage d'instructions augmentait, la performance du modèle s'améliorait. Cela valide l'idée que la quantité et la qualité des données d'entraînement sont essentielles pour un développement efficace du modèle.
Recherche Associée
Les chercheurs ces dernières années se sont concentrés sur la combinaison des connaissances visuelles avec la compréhension du langage. Ils ont introduit diverses méthodes pour améliorer la manière dont les modèles comprennent le texte dans les images. Par exemple, certaines études ont généré des descriptions détaillées d'images, tandis que d'autres ont créé des jeux de données spécifiquement conçus pour la réponse aux questions visuelles. Cependant, nombre de ces tentatives étaient limitées par l'échelle des données ou la qualité du contenu généré.
Aperçu de la Stratégie Square
La stratégie Square met l'accent sur la création d'un jeu de données à grande échelle contenant des données VQA riches et de haute qualité axées sur le texte. Le processus en quatre étapes d'Auto-Questionnement, Réponse, Raisonnement et Évaluation garantit que les données produites sont pertinentes, précises et utiles pour les besoins d'entraînement.
Processus de Collecte de Données
Pour développer avec succès le jeu de données Square-10M, une grande variété d'images riches en texte a été collectée. Cela comprenait des images provenant de différents scénarios du monde réel tels que des documents, des reçus, des graphiques, et plus encore. Un total de 3,8 millions d'images uniques a été rassemblé, couvrant un large éventail de contenus textuels.
Génération de Paires Question-Réponse
Après la collecte des images, la phase suivante a impliqué la génération de paires question-réponse. Ce processus a utilisé des modèles avancés pour générer des questions significatives basées sur les images et fournir des réponses détaillées. Le raisonnement derrière ces réponses a également été généré, ce qui ajoute une couche supplémentaire de contexte et de compréhension.
Assurer la Qualité des Données
Maintenir une haute qualité des données est essentiel. Pour y parvenir, plusieurs techniques de filtrage ont été appliquées. Le modèle a évalué le contenu généré pour s'assurer qu'il était pertinent et précis. Si des réponses étaient jugées incorrectes ou hors sujet, elles étaient éliminées, aboutissant à un jeu de données affiné.
Réalisations de TextSquare
En s'appuyant sur le jeu de données Square-10M, le modèle TextSquare a montré des performances remarquables à travers diverses tâches nécessitant la compréhension à la fois du texte et des images. Il a établi de nouveaux repères dans le domaine et a démontré des compétences dans la gestion de contenus complexes, tels que des documents et des données structurées comme des tableaux.
Comparaison avec les Modèles Existants
En comparant TextSquare aux modèles existants, on a constaté qu'il surpassait les performances des modèles open-source et de certains modèles fermés de pointe. Cela indique une amélioration significative de la capacité du modèle à comprendre et à traiter les éléments textuels et visuels ensemble.
Importance des Données de Raisonnement
Les expériences ont révélé que les données de raisonnement jouent un rôle crucial dans l'amélioration des performances du modèle. Les informations contextuelles supplémentaires fournies par le raisonnement aident les modèles à donner des réponses plus claires et plus précises, tout en réduisant les erreurs. Cela aide à garantir que les informations présentées sont fiables.
Aperçus sur l'Échelle des Données
En analysant différentes échelles de données de réglage d'instructions, il est évident que des ensembles de données plus volumineux contribuent à une meilleure performance du modèle. À mesure que la quantité de données augmentait, les modèles montraient des améliorations dans les métriques de performance et une réduction des erreurs. Cette constatation souligne la nécessité de collecter et d'utiliser des jeux de données de grande échelle et de haute qualité dans l'entraînement des modèles.
Limitations
Malgré les progrès, il y a certaines limitations. S'entraîner sur des données à grande échelle nécessite des ressources computationnelles importantes, ce qui peut être coûteux et long. De plus, bien que la stratégie Square améliore la qualité des données, elle peut ne pas atteindre entièrement le niveau de contenu produit par des humains.
Conclusion
En résumé, l'introduction du jeu de données Square-10M marque un progrès important dans le VQA centré sur le texte. Grâce à l'utilisation efficace d'une approche structurée pour la génération et l'évaluation des données, TextSquare démontre comment des données de qualité peuvent considérablement améliorer les performances du modèle. Les résultats soulignent la nécessité de jeux de données de haute qualité et à grande échelle pour combler l'écart de performances entre les modèles open-source et les systèmes de pointe.
Directions Futures
En regardant vers l'avenir, il est essentiel de continuer à explorer des moyens d'améliorer les processus de collecte et de génération de données. Trouver des méthodes pour améliorer la qualité des jeux de données et les rendre plus accessibles sera crucial pour les développements futurs dans ce domaine. La recherche continue peut mener à de meilleurs modèles capables de gérer une plus large gamme de tâches impliquant à la fois des données textuelles et visuelles, faisant ainsi avancer les capacités de l'intelligence artificielle dans la compréhension et l'interprétation d'informations complexes.
Titre: TextSquare: Scaling up Text-Centric Visual Instruction Tuning
Résumé: Text-centric visual question answering (VQA) has made great strides with the development of Multimodal Large Language Models (MLLMs), yet open-source models still fall short of leading models like GPT4V and Gemini, partly due to a lack of extensive, high-quality instruction tuning data. To this end, we introduce a new approach for creating a massive, high-quality instruction-tuning dataset, Square-10M, which is generated using closed-source MLLMs. The data construction process, termed Square, consists of four steps: Self-Questioning, Answering, Reasoning, and Evaluation. Our experiments with Square-10M led to three key findings: 1) Our model, TextSquare, considerably surpasses open-source previous state-of-the-art Text-centric MLLMs and sets a new standard on OCRBench(62.2%). It even outperforms top-tier models like GPT4V and Gemini in 6 of 10 text-centric benchmarks. 2) Additionally, we demonstrate the critical role of VQA reasoning data in offering comprehensive contextual insights for specific questions. This not only improves accuracy but also significantly mitigates hallucinations. Specifically, TextSquare scores an average of 75.1% across four general VQA and hallucination evaluation datasets, outperforming previous state-of-the-art models. 3) Notably, the phenomenon observed in scaling text-centric VQA datasets reveals a vivid pattern: the exponential increase of instruction tuning data volume is directly proportional to the improvement in model performance, thereby validating the necessity of the dataset scale and the high quality of Square-10M.
Auteurs: Jingqun Tang, Chunhui Lin, Zhen Zhao, Shu Wei, Binghong Wu, Qi Liu, Hao Feng, Yang Li, Siqi Wang, Lei Liao, Wei Shi, Yuliang Liu, Hao Liu, Yuan Xie, Xiang Bai, Can Huang
Dernière mise à jour: 2024-04-19 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2404.12803
Source PDF: https://arxiv.org/pdf/2404.12803
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.