Simple Science

La science de pointe expliquée simplement

# Informatique# Intelligence artificielle# Calcul et langage# Vision par ordinateur et reconnaissance des formes# Recherche d'informations

Améliorer l'extraction d'infos à partir de documents non structurés

Cette étude améliore l'extraction d'infos clés en utilisant un nouveau modèle pour des documents non structurés.

Furkan Pala, Mehmet Yasin Akpınar, Onur Deniz, Gülşen Eryiğit

― 11 min lire


Avancement deAvancement del'extraction d'infos desdocsdes documents non structurés.Un nouveau modèle améliore l'extraction
Table des matières

Les documents sont super importants dans notre vie quotidienne. Ils nous aident à communiquer et à garder des traces. Ces documents peuvent être écrits, imprimés ou numériques, et on les utilise souvent pour des trucs officiels ou pour partager des informations. On peut classer les documents selon leur structure. Certains sont très bien organisés avec des tableaux et des éléments visuels clairs, alors que d'autres sont un peu organisés mais ne suivent pas de règles strictes. Les documents non structurés, eux, n'ont pas de format clair et sont principalement composés de texte.

Extraire des infos utiles de ces documents automatiquement est crucial, surtout dans le secteur financier. Les institutions financières comme les banques gèrent un tas de documents chaque jour. Automatiser le processus pour obtenir des infos à partir de ces documents peut faire gagner un temps fou. Avec des techniques de Traitement du langage naturel (NLP) et de Vision par Ordinateur, les banques peuvent améliorer leur fonctionnement et se concentrer sur des tâches importantes, comme aider les clients et prendre des décisions.

Quand on parle d'extraction d'informations, il faut vraiment prendre en compte la structure et le contenu d'un document. Ça peut influencer à quel point on peut bien extraire les infos nécessaires. Différentes méthodes et technologies peuvent être nécessaires selon le type de document. Par exemple, les documents non structurés peuvent demander une meilleure compréhension du langage, car ils n'ont pas de format clair à suivre. D'un autre côté, les documents structurés facilitent souvent l'extraction parce que les infos sont généralement rangées dans un format connu, comme un tableau ou un formulaire.

Utiliser des systèmes multimodaux pour l'Extraction d'informations clés (KIE) peut être super utile, car ces systèmes peuvent combiner des infos du texte, de la mise en page, et des éléments visuels des documents. Même s'il y a eu pas mal de recherches sur les documents structurés, les documents non structurés restent un domaine en pleine expansion. Cela est surtout dû aux défis que ces documents posent et à la disponibilité limitée de jeux de données pour les étudier.

Récemment, on a vu plus de jeux de données publics apparaître, surtout pour les documents structurés et semi-structurés. Ça a entraîné une montée en popularité des modèles basés sur des transformateurs, comme BERTgrid et ViBERTgrid. Ces modèles peuvent repérer des sections importantes dans un document en utilisant des infos sur leur position. Cependant, ils n'ont pas été vraiment testés en profondeur avec des documents non structurés.

Objectif de l'étude

Cette étude vise à voir comment les transformateurs multimodaux peuvent fonctionner avec des documents non structurés. On présente un nouveau modèle appelé ViBERTgrid BiLSTM-CRF, qui combine les capacités de ViBERTgrid et d'un autre modèle connu sous le nom de BiLSTM-CRF. ViBERTgrid est super pour générer des représentations visuelles et des embeddings de mots riches, tandis que BiLSTM-CRF permet une meilleure compréhension de la syntaxe et du contexte sur des textes plus longs.

On va évaluer notre modèle sur un jeu de données d'ordres de transfert d'argent non structurés ainsi qu'un jeu de données de reçus semi-structurés appelé SROIE. En plus, on va publier un nouvel ensemble d'annotations au niveau des tokens pour le jeu de données SROIE afin de faciliter son utilisation dans les modèles multimodaux. Nos principales contributions sont :

  1. On a amélioré la performance de ViBERTgrid sur des documents non structurés en ajoutant une couche BiLSTM-CRF.
  2. On montre que ce nouveau modèle fonctionne aussi bien sur des documents semi-structurés.
  3. On partage publiquement les annotations au niveau des tokens du jeu de données SROIE pour que d'autres puissent les utiliser.

On va structurer le papier de manière simple. La prochaine section passe en revue les recherches précédentes sur l'extraction d'informations à partir de documents. Ensuite, on expliquera les détails de l'architecture ViBERTgrid BiLSTM-CRF. Après ça, on parlera de notre configuration expérimentale et on présentera les résultats obtenus. Enfin, on résumera nos points clés et suggérera de possibles directions pour de futures recherches.

Travaux connexes

Le processus d'extraction d'informations à partir de documents peut impliquer plusieurs tâches, y compris la classification des documents, la reconnaissance de texte grâce à la reconnaissance optique de caractères (OCR), l'identification d'entités nommées, et l'extraction de relations. La plupart des méthodes actuelles traitent l'extraction d'informations clés comme un problème de tagging de séquence, utilisant des techniques de reconnaissance d'entités nommées (NER) pour aborder le problème.

Cependant, certains jeux de données KIE n'ont pas d'annotations détaillées pour chaque token, ce qui pousse les chercheurs à développer leurs propres solutions. Pour résoudre ce problème, on fournit une couche d'annotations au niveau des tokens pour le jeu de données SROIE dans cette étude.

Avant que les réseaux neuronaux profonds deviennent populaires, les champs aléatoires conditionnels (CRF) étaient une approche courante pour la NER. Les CRF modélisent les dépendances entre les prédictions en utilisant une machine à états finis. Toutefois, comme il est devenu clair que comprendre les mots nécessite plus de contexte que juste les voisins immédiats, les réseaux de neurones récurrents (RNN) et leurs versions, comme les réseaux de mémoire à long terme (LSTM) et les unités récurrentes à portes (GRU), ont pris de l'importance. Les modèles BiLSTM-CRF se sont montrés robustes pour le tagging de séquences, utilisant à la fois le contexte passé et futur dans le texte.

Avec l'arrivée de grands modèles de langage comme ELMo, BERT et GPT-3, les tâches de NER ont connu des améliorations significatives. Ces modèles sont entraînés sur d'énormes quantités de texte et peuvent développer des représentations riches du langage. Ils peuvent être adaptés pour des tâches spécifiques et apprendre la signification des mots par rapport au contexte environnant, ce qui conduit à des prédictions plus précises.

Utiliser des modèles multimodaux qui combinent texte, mise en page et infos visuelles pour la NER est un domaine de recherche prometteur. Ces modèles peuvent profiter des éléments visuels, comme l'organisation du texte et des images dans les documents, pour améliorer leur précision. Par exemple, ces modèles peuvent utiliser la position des entités dans un tableau pour mieux identifier et extraire des informations.

Certains chercheurs ont travaillé sur la représentation des documents avec une méthode appelée Chargrid, qui transforme chaque page en une grille de caractères. Bien que cela soit utile pour les documents structurés, cette méthode peut ne pas être aussi efficace pour les documents non structurés. Une méthode plus récente, BERTgrid, représente les documents comme des grilles d'embeddings de morceaux de mots obtenus à partir de BERT. En utilisant cette approche, le modèle peut plus facilement accéder à la structure spatiale et au sens du document, conduisant à une meilleure analyse.

Bien que BERTgrid ait prouvé son efficacité, il n'utilise pas pleinement la capacité du modèle BERT car ses paramètres ne sont pas ajustés pendant l'entraînement. ViBERTgrid vise à résoudre cela en combinant BERTgrid avec un réseau de neurones convolutifs (CNN) pour analyser à la fois les caractéristiques visuelles et les infos textuelles simultanément. En permettant un entraînement conjoint des deux réseaux, ViBERTgrid obtient de meilleurs embeddings de mots spécifiques au contexte.

Architecture ViBERTgrid BiLSTM-CRF

On présente une version modifiée de l'architecture ViBERTgrid conçue pour améliorer sa performance pour les tâches KIE. Le modèle ViBERTgrid BiLSTM-CRF se compose de trois parties principales :

  1. L'architecture adaptée qui combine ViBERTgrid avec une couche BiLSTM-CRF.
  2. Un réseau backbone multimodal qui crée la carte des fonctionnalités ViBERTgrid.
  3. Une tête de classification pour prédire des labels pour chaque mot dans le document. Il y a deux variations de cette tête de classification : une avec la couche BiLSTM-CRF et une sans.

Pour créer la représentation ViBERTgrid, on génère d'abord la représentation BERTgrid et la combine avec des couches intermédiaires du CNN. BERTgrid prend une image de document comme entrée et utilise l'OCR pour identifier les mots et leurs positions. Chaque mot est découpé en morceaux plus petits, permettant au modèle de capturer des nuances de langage plus subtiles.

La combinaison des informations visuelles du CNN avec les caractéristiques textuelles de BERTgrid aide à créer une compréhension plus complète du document. Cela permet au modèle d'être mieux préparé pour extraire efficacement des informations clés.

Configuration expérimentale

On a évalué l'efficacité du modèle proposé sur deux jeux de données : SROIE et deux ensembles de documents d'ordres de transfert d'argent turcs (UTD et UMTD). Le jeu de données SROIE contient des reçus et est bien considéré dans les études d'extraction d'informations semi-structurées. Il a quatre types d'entités : entreprise, date, adresse et total. On a amélioré ce jeu de données grâce à une annotation manuelle pour s'assurer que les étiquettes des mots correspondaient à leurs données OCR respectives.

Le jeu de données UTD comprend de vrais documents bancaires, tandis que le jeu de données UMTD inclut plusieurs transactions dans un seul document. On a utilisé des splits spécifiques fournis dans des recherches précédentes pour l'entraînement, la validation et les tests.

Pour entraîner les modèles, on a employé différentes stratégies d'optimisation et utilisé deux optimisateurs AdamW séparés pour les composants BERT et CNN. On a également mis en place des mesures pour éviter le surajustement, comme ajuster le taux d'apprentissage lorsque les scores de validation n'amélioraient pas.

Pour évaluer la performance du modèle, on a utilisé le script d'évaluation officiel SROIE pour obtenir des scores F1. Pour les jeux de données UTD et UMTD, on a appliqué la technique d'évaluation des scores F1 au niveau des champs NER. On a soigneusement entraîné et testé chaque modèle plusieurs fois pour garantir la fiabilité de nos résultats.

Résultats

Nos résultats montrent la performance du ViBERTgrid original et des versions améliorées BiLSTM-CRF sur le jeu de données SROIE. On a utilisé des techniques pour nettoyer les prédictions des deux modèles afin d'éliminer les résultats indésirables, comme les tokens hors sujet.

Quand on a regardé les scores, on a constaté que l'ajout de la couche BiLSTM-CRF a donné un petit coup de pouce à la performance sur le jeu de données SROIE. Cependant, cette amélioration n'était pas statistiquement significative, ce qui suggère que les bénéfices de la nouvelle couche pourraient être plus marqués dans les documents non structurés que dans les mises en page semi-structurées de SROIE.

Pour les documents transactionnels non structurés, on a fait des observations significatives. Le modèle ViBERTgrid basique n'était pas aussi performant qu'un modèle purement textual sur le jeu de données UTD. Cependant, quand on a inclus la couche BiLSTM-CRF, la performance du modèle a augmenté de manière spectaculaire, entraînant des scores F1 améliorés.

Les améliorations étaient également évidentes dans les documents multi-transactions, où une couche BiLSTM-CRF a mené à des scores plus élevés dans tous les setups de test. Néanmoins, dans des situations avec des mises en page de type tabulaire, les gains n'étaient pas statistiquement significatifs.

Discussion et conclusion

À travers cette étude, on a obtenu des insights précieux sur l'influence des caractéristiques visuelles dans l'extraction d'informations des documents financiers non structurés. Bien que les premiers résultats aient montré que le modèle ViBERTgrid original n'était pas aussi efficace avec les documents non structurés par rapport à un modèle purement textual, l'introduction de la couche BiLSTM-CRF a conduit à des améliorations notables.

Dans l'ensemble, le modèle ViBERTgrid BiLSTM-CRF a montré des avantages clairs, atteignant de meilleurs résultats sur des documents non structurés tout en maintenant sa performance sur des formats semi-structurés. De plus, en publiant les annotations au niveau des tokens pour le jeu de données SROIE, on espère soutenir le développement de modèles multimodaux plus efficaces.

En regardant vers l'avenir, on espère explorer davantage le rôle de notre architecture par rapport à d'autres tâches, notamment l'extraction de relations. Ça pourrait offrir des insights plus profonds et des comparaisons avec les modèles multimodaux existants.

On veut aussi remercier notre équipe et nos examinateurs pour leurs précieuses contributions et retours tout au long de ce processus de recherche.

Source originale

Titre: ViBERTgrid BiLSTM-CRF: Multimodal Key Information Extraction from Unstructured Financial Documents

Résumé: Multimodal key information extraction (KIE) models have been studied extensively on semi-structured documents. However, their investigation on unstructured documents is an emerging research topic. The paper presents an approach to adapt a multimodal transformer (i.e., ViBERTgrid previously explored on semi-structured documents) for unstructured financial documents, by incorporating a BiLSTM-CRF layer. The proposed ViBERTgrid BiLSTM-CRF model demonstrates a significant improvement in performance (up to 2 percentage points) on named entity recognition from unstructured documents in financial domain, while maintaining its KIE performance on semi-structured documents. As an additional contribution, we publicly released token-level annotations for the SROIE dataset in order to pave the way for its use in multimodal sequence labeling models.

Auteurs: Furkan Pala, Mehmet Yasin Akpınar, Onur Deniz, Gülşen Eryiğit

Dernière mise à jour: 2024-09-23 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.15004

Source PDF: https://arxiv.org/pdf/2409.15004

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires