Améliorer la compréhension des documents avec des données faiblement étiquetées
Une nouvelle approche pour améliorer les modèles VDER en utilisant des données documentaires diverses.
― 8 min lire
Table des matières
- Le défi de la compréhension de documents
- Modèles actuels et leurs limites
- Processus de Collecte de données
- Création d'une liste d'ontologie
- Tokenisation multimodale
- Pipeline de pré-entraînement
- Annotation et contrôle de qualité
- Avantages de l'approche
- Résultats expérimentaux
- L'importance de la diversité des données
- Travaux futurs
- Conclusion
- Source originale
- Liens de référence
Les tâches de compréhension de documents sont devenues super importantes, surtout dans le domaine de l'IA d'entreprise. Un truc spécifique, c'est la récupération d'entités dans des documents riches en visuels (VDER). Ça aide à identifier et extraire des infos de documents qui contiennent des images et du texte. Mais le gros souci, c'est qu'il y a pas assez de données accessibles au public. C'est surtout à cause des soucis de confidentialité et des coûts élevés pour annoter les documents. En plus, les différents ensembles de données peuvent avoir des types d'entités variés, ce qui complique le transfert de connaissances entre eux.
Cet article parle d'une nouvelle méthode pour récupérer un grand nombre de documents faiblement annotés sur le web pour améliorer l'entraînement des modèles VDER. Le dataset qu'on a récupéré n'est pas limité à des types de documents ou ensembles d'entités spécifiques. Du coup, il peut être utilisé pour tous les types de tâches de compréhension de documents.
Le défi de la compréhension de documents
La compréhension de documents est souvent vue comme une tâche difficile. Beaucoup de gens rencontrent des erreurs et des problèmes lorsqu'ils essaient de comprendre des documents dans leur quotidien. L'apprentissage automatique a permis d'automatiser certaines de ces tâches, mais il reste encore pas mal de défis à relever.
Dans une tâche VDER typique, il faut récupérer des infos de documents basées sur des types d'entités spécifiques. Ces types pourraient inclure "montant", "date", et "nom de l'article", qui sont courants dans les factures. Un des principaux problèmes, c'est la disponibilité limitée d'images de documents bruts, surtout parce que beaucoup de documents contiennent des infos personnelles protégées par des lois sur la confidentialité.
Les coûts liés à l'Annotation de ces documents sont aussi élevés. Le plus souvent, cette tâche nécessite des annotateurs qualifiés, ce qui rajoute des difficultés. En plus, différents types de documents peuvent avoir des étiquettes et des significations inconsistantes, rendant le partage de connaissances entre les différents types de documents plus compliqué.
Modèles actuels et leurs limites
Divers modèles ont été proposés pour les tâches VDER, mais chacun a ses limites. En général, les méthodes existantes commencent avec un modèle de langage qui est ensuite affiné avec des ensembles de données de documents contenant des caractéristiques supplémentaires de mise en page et visuelles. Même le plus grand ensemble de données disponible, le dataset IIT-CDIP, a ses limites, car il ne représente qu'un petit échantillon de types de documents.
Cet article introduit une nouvelle méthode pour construire un dataset qui facilitera un pré-entraînement à grande échelle pour la modélisation VDER. Le dataset est récolté sur le web en utilisant une structure spécifique qui prend en compte des centaines de types de documents et leur organisation en niveaux.
Processus de Collecte de données
Collecter des images sur le web peut sembler simple, mais en réalité, ça demande une approche bien planifiée. La plupart des images sur Internet ne correspondent pas aux types de documents qu'on recherche. Une méthode plus efficace pour rassembler les images pertinentes est de faire une recherche par voisinage proche avec des mots-clés appropriés.
Le processus commence par créer une liste de mots-clés en anglais qui se connectent à différents types de documents. Ces mots-clés sont ensuite encodés dans un espace commun qui inclut à la fois du texte et des images. Un algorithme de récupération peut ensuite trouver les images les plus pertinentes en fonction de ces mots-clés. Après avoir collecté les images, un processus de déduplication est appliqué pour s'assurer qu'on reste avec des images uniques.
Création d'une liste d'ontologie
Une partie importante de ce processus est de créer une liste d'ontologie qui sert de base pour récupérer des images. Une ontologie bien structurée devrait inclure un large éventail de mots-clés pertinents liés aux domaines des documents, comme la finance, les affaires, les affaires juridiques, et l'éducation. Cet article présente une liste soigneusement sélectionnée d'environ 400 mots-clés liés aux documents couvrant divers sujets.
Tokenisation multimodale
Une fois que les images de documents sont collectées, elles doivent être traitées pour être utilisables pour l'apprentissage automatique. La première étape de ce processus est d'appliquer la Reconnaissance Optique de Caractères (OCR) pour convertir les images en texte. Chaque caractère extrait vient avec ses coordonnées de boîte englobante, ce qui nous permet de comprendre où dans l'image le texte était situé.
Après cette étape, une tokenisation multimodale a lieu. Les jetons de texte sont alignés avec des découpes d'image qui représentent des infos visuelles pertinentes pour chaque jeton. Cet alignement permet une compréhension plus intégrée des données textuelles et visuelles.
Pipeline de pré-entraînement
Le pipeline de pré-entraînement inclut plusieurs objectifs qui aident à améliorer les capacités d'apprentissage du modèle. Dans cette phase, les séquences de texte générées par OCR sont utilisées en conjonction avec les découpes d'image pour enseigner au modèle comment traiter et comprendre les documents mieux. Chaque entrée est combinée avec des embeddings de position pour capturer l'agencement spatial du texte et des images.
Annotation et contrôle de qualité
Une fois que le texte est généré, il passe par un processus d'annotation faible pour classer les segments en différentes catégories comme les adresses e-mail, les dates, les prix, et les noms. Même si certaines classifications peuvent contenir des erreurs, avoir ces étiquettes fournit une guidance supplémentaire pour le modèle pendant le pré-entraînement.
Pour garantir que le dataset reste de haute qualité, des méthodes de filtrage heuristiques sont appliquées. Cette étape élimine les échantillons où les résultats OCR sont mauvais en raison d'images floues. Il est essentiel de maintenir la qualité des données collectées, car des échantillons de mauvaise qualité peuvent entraver le processus d'apprentissage du modèle.
Avantages de l'approche
L'approche discutée dans cet article permet de collecter de grandes quantités de données documentaires diverses à un coût inférieur à celui des méthodes traditionnelles de collecte de données. De plus, les données collectées sont bien structurées et annotées, ce qui aide à améliorer l'entraînement des modèles VDER.
En utilisant les avancées récentes dans l'apprentissage automatique et les grands modèles de langage, le dataset proposé sert de ressource significative pour améliorer les tâches de compréhension des documents.
Résultats expérimentaux
Plusieurs expériences ont été menées pour tester l'efficacité du dataset collecté. Différentes tâches de compréhension de documents ont été évaluées, et les résultats ont montré des améliorations significatives de performance lorsque le nouveau dataset a été intégré dans l'entraînement de modèles classiques et de modèles d'apprentissage peu échantillon.
L'importance de la diversité des données
Une constatation notable des expériences est l'importance d'avoir un dataset diversifié. Une variété de types de documents contribue de manière significative à la performance du modèle. Le nouveau dataset collecté, qui inclut 30 millions de documents de près de 400 types de documents différents, montre des avantages clairs par rapport à des datasets plus petits et mono-domaine.
Travaux futurs
Bien que les méthodes actuelles soient prometteuses, il reste plusieurs domaines à explorer. Les recherches futures pourraient se concentrer sur le raffinement des stratégies de collecte de mots-clés et d'images pour optimiser les données pour de meilleurs résultats de modèle. De plus, il y a un potentiel à explorer les architectures conçues spécifiquement pour utiliser efficacement les grandes quantités de données bruyantes.
Un autre domaine à considérer est comment gérer efficacement les différents types de documents. De nombreux documents peuvent avoir des structures similaires mais des contenus différents, ce qui nécessite que les modèles soient adaptables pour gérer à la fois les formulaires remplis et non remplis.
Conclusion
Cet article présente une nouvelle méthode pour rassembler et traiter de grandes quantités de données documentaires sur le web afin d'améliorer les tâches de compréhension de documents, spécifiquement VDER. L'approche aborde non seulement les défis actuels dans ce domaine, comme la rareté des données et les préoccupations de confidentialité, mais souligne aussi l'importance d'avoir un dataset diversifié et bien structuré.
Dans l'ensemble, les résultats indiquent que les méthodes proposées entraînent des améliorations significatives de la performance des modèles, ce qui en fait une contribution précieuse au domaine de la compréhension des documents. Les futures recherches devraient s'appuyer sur ces conclusions pour améliorer encore les capacités des modèles VDER et explorer de nouvelles façons d'utiliser les données collectées plus efficacement.
Titre: DocumentNet: Bridging the Data Gap in Document Pre-Training
Résumé: Document understanding tasks, in particular, Visually-rich Document Entity Retrieval (VDER), have gained significant attention in recent years thanks to their broad applications in enterprise AI. However, publicly available data have been scarce for these tasks due to strict privacy constraints and high annotation costs. To make things worse, the non-overlapping entity spaces from different datasets hinder the knowledge transfer between document types. In this paper, we propose a method to collect massive-scale and weakly labeled data from the web to benefit the training of VDER models. The collected dataset, named DocumentNet, does not depend on specific document types or entity sets, making it universally applicable to all VDER tasks. The current DocumentNet consists of 30M documents spanning nearly 400 document types organized in a four-level ontology. Experiments on a set of broadly adopted VDER tasks show significant improvements when DocumentNet is incorporated into the pre-training for both classic and few-shot learning settings. With the recent emergence of large language models (LLMs), DocumentNet provides a large data source to extend their multi-modal capabilities for VDER.
Auteurs: Lijun Yu, Jin Miao, Xiaoyu Sun, Jiayi Chen, Alexander G. Hauptmann, Hanjun Dai, Wei Wei
Dernière mise à jour: 2023-10-26 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.08937
Source PDF: https://arxiv.org/pdf/2306.08937
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://dataverse.harvard.edu/dataverse/caselawaccess
- https://www.industrydocuments.ucsf.edu/
- https://cloud.google.com/vision/docs/ocr
- https://cloud.google.com/natural-language/docs/reference/rest/v1/Entity#type
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://ctan.org/pkg/amssymb
- https://ctan.org/pkg/pifont
- https://www.aclweb.org/portal/content/acl-code-ethics