Rendre le traitement des docs plus simple grâce à l'automatisation
Une nouvelle méthode relie la classification et l'extraction d'informations clés pour un traitement de documents plus efficace.
― 8 min lire
Table des matières
- Classification des Documents
- Extraction d'Informations Clés (KIE)
- Combinaison de la Classification des Documents et du KIE
- Étapes de Prétraitement pour l'Exactitude
- Optimisation des Attributions pour le KIE
- Résultats et Conclusions
- Limitations et Directions Futures
- Conclusion
- Source originale
- Liens de référence
Dans le monde d'aujourd'hui, beaucoup d'organisations passent aux documents numériques et laissent de côté le papier. Ce changement a entraîné une utilisation accrue de systèmes automatisés pour gérer des documents comme les factures et les formulaires d'assurance. Cependant, le traitement de ces documents peut encore être long et coûteux, nécessitant souvent beaucoup de travail manuel. L'objectif de ce travail est d'automatiser la classification des documents et l'Extraction d'informations clés.
La classification des documents consiste à reconnaître de quel type de document il s'agit. Par exemple, est-ce une facture ou une demande d'assurance ? L'extraction d'informations clés (KIE) va plus loin en se concentrant sur l'extraction de pièces importantes d'information, comme des noms ou des numéros de police, de ces documents. Ces deux tâches sont liées, car la classification aide à identifier quel modèle utiliser pour extraire les informations.
Classification des Documents
Depuis de nombreuses années, les chercheurs étudient comment classer efficacement les images de documents. Les premières méthodes se concentraient sur les formes et les caractéristiques des documents dans leur ensemble pour les distinguer. Cela fonctionnait bien pour des types de documents très différents mais avait du mal avec des documents qui se ressemblent beaucoup, comme des formulaires ayant la même structure.
Récemment, les avancées en deep learning ont changé la donne. Avec les techniques de deep learning et de grands ensembles de données, on peut maintenant extraire des caractéristiques plus détaillées des documents, comme leur mise en page et leur style de texte. Une approche populaire est d'utiliser des réseaux de neurones convolutifs (CNN), qui ont été utilisés avec succès pour classifier divers types de documents. Cependant, cette méthode peut être limitée lorsque les documents se ressemblent beaucoup.
Pour résoudre les problèmes d'exactitude de la classification, de nouvelles méthodes combinent informations visuelles et textuelles. En fusionnant ces caractéristiques, les classificateurs peuvent mieux comprendre les documents, ce qui conduit à de meilleurs résultats. Par exemple, des systèmes comme LayoutLM utilisent à la fois le texte et la mise en page pour obtenir des performances de classification impressionnantes.
Malgré ces avancées, utiliser de grands Modèles de deep learning peut être gourmand en ressources et nécessite beaucoup de données d'entraînement. Donc, certains chercheurs sont revenus à des méthodes plus simples, se concentrant davantage sur l'utilisation de modèles de documents pour la classification plutôt que de dépendre entièrement d'approches lourdes en données.
Extraction d'Informations Clés (KIE)
Après avoir classé un document, l'étape suivante est le KIE. Ce processus vise à extraire des informations précieuses des formulaires ou des documents structurés. Cela peut être utilisé pour diverses applications, comme le traitement des informations client et la gestion des demandes d'assurance.
Dans le passé, les méthodes KIE s'appuyaient beaucoup sur des modèles, en faisant correspondre les documents avec des mises en page existantes. Bien que cela soit efficace, cette approche peut rencontrer des difficultés avec de nouveaux formulaires non vus auparavant. Ces dernières années, l'introduction de l'apprentissage machine a amené le KIE à être traité comme un problème de prédiction de séquence, mais ce n'est pas toujours la meilleure solution car de nombreux documents ont des structures complexes.
Pour améliorer les méthodes traditionnelles, certains chercheurs se sont concentrés sur l'exploitation des relations spatiales du texte dans les documents. En considérant la position des mots et des phrases, les modèles peuvent mieux identifier quelles pièces d'information vont ensemble. Divers systèmes ont été développés qui utilisent à la fois des informations textuelles et de mise en page, menant à de meilleurs résultats d'extraction.
Combinaison de la Classification des Documents et du KIE
Le travail discuté ici introduit une nouvelle façon de lier la classification des documents et le KIE. Cette approche innovante utilise des modèles pour les deux tâches sans nécessiter d'entraînement massif. En se concentrant sur la mise en page et la structure des documents, on peut les classifier et extraire efficacement des valeurs clés.
L'idée principale est de comparer un document avec plusieurs modèles. Lorsqu'un document entre dans le système, il est d'abord classé, ce qui nous permet de savoir quel modèle utiliser pour extraire l'information. Cette combinaison de classification et d'extraction est bénéfique dans les applications industrielles où de nombreux documents du même type doivent être traités.
Étapes de Prétraitement pour l'Exactitude
Un des grands défis dans le traitement des documents est qu'ils contiennent souvent du bruit, comme des scans de mauvaise qualité ou des variations de mise en page. Pour résoudre ces problèmes, nous mettons en œuvre plusieurs étapes de prétraitement.
Consolidation de la Sortie OCR : La Reconnaissance Optique de Caractères (OCR) aide à convertir des images de texte en texte réel. Cependant, l'OCR peut faire des erreurs. Pour y remédier, nous prenons des chaînes identifiées par l'OCR et combinons celles qui appartiennent probablement à la même entité si elles sont suffisamment proches.
Alignement des Images de Documents : Les documents numérisés peuvent être inclinés ou tournés, ce qui rend la classification et l'extraction plus difficiles. Nous alignons les images de documents en utilisant des techniques qui trouvent des points clés sur les documents et les ajustent pour mieux correspondre aux modèles.
Représentations Globales pour la Classification des Documents : Pour classifier les documents avec précision, nous utilisons diverses méthodes pour vectoriser le texte à l'intérieur des documents. Comparer ces représentations textuelles en utilisant la similarité cosinus aide à déterminer à quel point un nouveau document correspond aux modèles.
Mise à l'Échelle des Entités Documentaires : Puisque les documents numérisés peuvent ne pas correspondre à la taille des formulaires originaux, nous les mettons à l'échelle. Cela implique d'analyser la mise en page du document et d'ajuster les positions des entités clés pour qu'elles s'adaptent mieux au modèle.
Optimisation des Attributions pour le KIE
La tâche KIE est réalisée à l'aide d'une méthode appelée optimisation des attributions. Cette approche nous permet d'associer les entités d'un document à leurs emplacements correspondants dans un modèle.
Au lieu de dépendre de modèles de deep learning complexes, la méthode d'optimisation minimise la distance entre les entités identifiées dans un document et les emplacements attendus de ces entités dans le modèle. Cela signifie que notre algorithme examine où le texte dans le document devrait s'intégrer en fonction de ses relations spatiales.
L'optimisation des attributions est bénéfique car elle ne nécessite pas d'apprentissage intensif et peut facilement s'adapter à de nouveaux documents. Le résultat est un ensemble structuré de paires clé-valeur, représentant les informations extraites.
Résultats et Conclusions
Le système mis en place a montré des résultats prometteurs. Dans la phase de classification, notre approche a atteint un taux de précision élevé, identifiant correctement la plupart des types de documents que nous avons testés.
Pour la tâche KIE, les informations extraites ont également bien performé, montrant de fortes scores de précision et de rappel. Cela suggère que notre méthode peut récupérer efficacement des informations tout en minimisant les erreurs.
Un point clé était l'importance des étapes de prétraitement. Sans cela, le système a eu du mal, rencontrant une augmentation des erreurs d'extraction. Cela montre que bien préparer les documents est crucial pour maximiser la performance.
Limitations et Directions Futures
Bien que la méthode montre des promesses, il y a plusieurs limitations à considérer. Par exemple, notre approche peut ne pas gérer aussi efficacement les documents très denses. Un travail supplémentaire est nécessaire pour améliorer la généralisabilité et la solidité à travers différents formats de documents.
De plus, nous dépendons fortement des performances de l'OCR, qui peuvent être incohérentes, surtout avec des polices ou une écriture inhabituelles. Améliorer les capacités de l'OCR sera essentiel pour améliorer la qualité globale des informations extraites.
Les travaux futurs pourraient également explorer l'ajout d'informations sémantiques au processus d'extraction. En intégrant la compréhension du texte avec sa position, nous pourrions affiner comment nous attribuons des valeurs aux clés, augmentant potentiellement la précision.
Conclusion
Ce travail présente une nouvelle méthode pour la classification des documents et l'extraction d'informations clés qui repose sur des modèles et l'optimisation des attributions. L'approche est efficace pour traiter des formulaires structurés, surtout dans des environnements industriels où de grands volumes de documents similaires doivent être gérés. Les résultats obtenus indiquent que cette méthode a le potentiel de simplifier les processus et de réduire le besoin d'entrée manuelle de données. En continuant à affiner les techniques et à traiter les limitations actuelles, cette approche pourrait jouer un rôle important dans le traitement automatisé des documents à l'avenir.
Titre: End-to-End Document Classification and Key Information Extraction using Assignment Optimization
Résumé: We propose end-to-end document classification and key information extraction (KIE) for automating document processing in forms. Through accurate document classification we harness known information from templates to enhance KIE from forms. We use text and layout encoding with a cosine similarity measure to classify visually-similar documents. We then demonstrate a novel application of mixed integer programming by using assignment optimization to extract key information from documents. Our approach is validated on an in-house dataset of noisy scanned forms. The best performing document classification approach achieved 0.97 f1 score. A mean f1 score of 0.94 for the KIE task suggests there is significant potential in applying optimization techniques. Abation results show that the method relies on document preprocessing techniques to mitigate Type II errors and achieve optimal performance.
Auteurs: Ciaran Cooney, Joana Cavadas, Liam Madigan, Bradley Savage, Rachel Heyburn, Mairead O'Cuinn
Dernière mise à jour: 2023-06-01 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.00750
Source PDF: https://arxiv.org/pdf/2306.00750
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.