Nouvelle approche pour le question-réponse sur les images de documents
Une nouvelle méthode améliore la capacité de l'IA à répondre aux questions à partir d'images de documents.
― 7 min lire
Table des matières
La question de réponse sur les images de documents, c'est un truc où les systèmes d'IA doivent répondre à des questions en se basant sur le contenu d'images de documents. C'est super important parce que ça permet de comprendre et d'extraire des infos utiles de documents comme des formulaires, des rapports, et des infographies. Contrairement aux docs texte classiques, les images de documents incluent pas juste du texte mais aussi des éléments visuels et de mise en page, ce qui rend la tâche plus complexe.
Des avancées récentes ont été faites avec des modèles pré-entraînés spécifiquement conçus pour comprendre les infos de mise en page dans les documents. Ces modèles utilisent des composants supplémentaires pour traiter les données de mise en page, qui peuvent venir des zones de texte identifiées par des outils de Reconnaissance Optique de Caractères (OCR). Mais le souci, c'est que ces modèles ont souvent besoin d'un entraînement intensif sur plein d'images de documents, et toutes les équipes n'ont pas les moyens de faire ça.
Problème
Le besoin d'un pré-entraînement intensif sur les images de documents limite l'utilisation de nombreux modèles à la pointe, surtout ceux qui sont facilement disponibles et capables de s'adapter aux instructions. Les modèles adaptés aux instructions ont montré qu'ils peuvent apprendre des tâches sans avoir besoin d'un entraînement intensif préalable. Ces modèles, comme Claude et ChatGPT, sont conçus pour réaliser des tâches uniquement sur la base des instructions fournies. Cependant, leur capacité à comprendre les mises en page de document n'a pas encore été complètement exploitée.
Observation
Des recherches montrent que les modèles adaptés aux instructions peuvent traiter les infos de mise en page simplement en regardant les espaces et les sauts de ligne dans le texte. Cette idée est à la base d'une nouvelle approche appelée LATIN-Prompt. Cette méthode combine le contenu conscient de la mise en page des documents avec des instructions spécifiques à la tâche, permettant aux modèles de générer des réponses qui respectent des exigences de formatage.
Solutions Proposées
LATIN-Prompt
Le LATIN-Prompt intègre du contenu de document sensible à la mise en page et des instructions spécifiques à la tâche. Le contenu sensible à la mise en page est créé en organisant les segments de texte obtenus grâce à l'OCR de manière à garder leur position et leur format d'origine. Ça implique d'utiliser des espaces et des sauts de ligne pour refléter comment le texte apparaîtrait normalement sur la page.
Les instructions spécifiques à la tâche guident le modèle pour générer des réponses qui respectent des critères précis, comme être directement extraites du contenu du document sans détails ou descriptions inutiles. L'approche est simple, imitant la façon dont les humains perçoivent la mise en page à travers l'espacement visuel plutôt qu'en s'appuyant uniquement sur les coordonnées des zones de texte.
LATIN-Tuning
En parallèle avec le LATIN-Prompt, le LATIN-Tuning vise à améliorer les modèles d'instructions plus petits, comme Alpaca. Cela se fait en convertissant des tableaux et d'autres données structurées dans un format qui inclut des espaces et des sauts de ligne. Ce processus aide Alpaca à mieux capturer les infos de mise en page, améliorant ses performances pour répondre aux questions liées aux images de documents.
Résultats Expérimentaux
Pour valider l'efficacité du LATIN-Prompt et du LATIN-Tuning, des expériences ont été menées sur trois ensembles de données différents : DocVQA, InfographicVQA, et MP-DocVQA. Chaque ensemble de données a son propre style et ses exigences pour répondre aux questions.
DocVQA
DocVQA se concentre sur la réponse à des questions extractives, où le but est de trouver des réponses exactes dans le texte. Avec 50 000 questions sur plus de 12 000 images de documents, cet ensemble de données pose des défis significatifs. Les résultats montrent que les modèles utilisant le LATIN-Prompt performent nettement mieux que ceux utilisant un prompt classique. Précisément, Claude et ChatGPT ont montré des performances améliorées, comparables à celles des modèles fine-tunés qui utilisent la sensibilité à la mise en page.
InfographicVQA
Cet ensemble de données se compose d'infographies, où l'information est transmise par un mélange de texte, d'images et de graphismes. InfographicVQA est plus complexe que DocVQA, nécessitant que les modèles gèrent différents types de questions, y compris le raisonnement et les calculs numériques. Là encore, les modèles utilisant le LATIN-Prompt ont surpassé les autres, montrant un réel avantage dans la compréhension des mises en page au sein de documents multimédias.
MP-DocVQA
MP-DocVQA s'étend sur DocVQA en introduisant des documents multi-pages. Cet ensemble de données comprend des questions sur des milliers de pages, reflétant des scénarios réels où les utilisateurs pourraient rencontrer des documents avec divers formats et nombres de pages. Les résultats montrent que le LATIN-Prompt permet de meilleures performances face aux documents multi-pages, permettant aux modèles de gérer efficacement des mises en page complexes.
Analyse et Perspectives
Les résultats des différents ensembles de données mettent en lumière plusieurs points clés. D'abord, l'intégration de contenu sensible à la mise en page avec des instructions spécifiques à la tâche fait une grosse différence en matière de performances. Les modèles équipés du LATIN-Prompt et du LATIN-Tuning sont mieux adaptés pour gérer les défis uniques que posent les images de documents comparés aux modèles traditionnels.
Une analyse plus approfondie des résultats indique que les améliorations de performance sont liées aux capacités des modèles à comprendre la mise en page à travers l'espacement plutôt qu'avec des systèmes de coordonnées rigides. Ça s'aligne avec la façon dont les humains interprètent les documents, où les espaces et les arrangements de texte jouent des rôles critiques.
Document Sensible à la Mise en Page
L'approche pour créer des documents sensibles à la mise en page implique de réorganiser les segments de texte en fonction de leurs positions, de joindre des segments de texte avec des espaces pour ceux qui sont sur la même ligne, et de séparer les lignes différentes avec des sauts de ligne. Ce processus aboutit à un document sensible à la mise en page qui conserve l'essence de la mise en page d'origine.
Instructions Sensibles à la Tâche
Les instructions sensibles à la tâche clarifient les objectifs du modèle, garantissant que les réponses générées sont non seulement pertinentes mais également correctement formatées. Ces instructions guident le modèle, l'empêchant de s'écarter des exigences de la tâche. Par exemple, une instruction pourrait spécifier que la réponse doit être tirée directement du document sans explications ajoutées.
Conclusion
Ce travail présente une nouvelle perspective sur la gestion des infos de mise en page dans les images de documents pour répondre à des questions. En se concentrant sur la façon dont les modèles adaptés aux instructions comme Claude et ChatGPT peuvent saisir la mise en page via un formatage de texte simple, le LATIN-Prompt émerge comme une approche efficace pour la réponse à des questions sur des images de documents sans entraînement préalable.
Les résultats des expériences sur différents ensembles de données confirment que cette méthode améliore les performances du modèle, les rendant comparables à des approches plus gourmandes en ressources qui s'appuient sur un pré-entraînement. L'introduction du LATIN-Tuning aide aussi les petits modèles de langage à exploiter cette compréhension de la mise en page plus efficacement.
Pour les futurs travaux, il y a du potentiel pour affiner encore ces méthodes en intégrant des éléments visuels dans les cadres existants, les rendant encore plus puissants pour une variété de tâches de compréhension de documents.
Titre: Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering
Résumé: Layout-aware pre-trained models has achieved significant progress on document image question answering. They introduce extra learnable modules into existing language models to capture layout information within document images from text bounding box coordinates obtained by OCR tools. However, extra modules necessitate pre-training on extensive document images. This prevents these methods from directly utilizing off-the-shelf instruction-tuning language foundation models, which have recently shown promising potential in zero-shot learning. Instead, in this paper, we find that instruction-tuning language models like Claude and ChatGPT can understand layout by spaces and line breaks. Based on this observation, we propose the LAyout and Task aware Instruction Prompt (LATIN-Prompt), which consists of layout-aware document content and task-aware instruction. Specifically, the former uses appropriate spaces and line breaks to recover the layout information among text segments obtained by OCR tools, and the latter ensures that generated answers adhere to formatting requirements. Moreover, we propose the LAyout and Task aware Instruction Tuning (LATIN-Tuning) to improve the performance of small instruction-tuning models like Alpaca. Experimental results show that LATIN-Prompt enables zero-shot performance of Claude and ChatGPT to be comparable to the fine-tuning performance of SOTAs on document image question answering, and LATIN-Tuning enhances the zero-shot performance of Alpaca significantly. For example, LATIN-Prompt improves the performance of Claude and ChatGPT on DocVQA by 263% and 20% respectively. LATIN-Tuning improves the performance of Alpaca on DocVQA by 87.7%. Quantitative and qualitative analyses demonstrate the effectiveness of LATIN-Prompt and LATIN-Tuning. We provide the code in supplementary and will release it to facilitate future research.
Auteurs: Wenjin Wang, Yunhao Li, Yixin Ou, Yin Zhang
Dernière mise à jour: 2023-09-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.00526
Source PDF: https://arxiv.org/pdf/2306.00526
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.