Migliorare l'estrazione di informazioni da documenti non strutturati
Questo studio migliora l'estrazione di informazioni chiave usando un nuovo modello per documenti non strutturati.
Furkan Pala, Mehmet Yasin Akpınar, Onur Deniz, Gülşen Eryiğit
― 9 leggere min
Indice
I documenti sono una parte importante della nostra vita quotidiana. Ci aiutano a comunicare e a tenere traccia delle informazioni. Questi documenti possono essere scritti, stampati o digitali e spesso vengono usati per scopi ufficiali o per condividere informazioni. Possiamo classificare i documenti in base alla loro struttura. Alcuni documenti sono molto organizzati con tabelle e elementi visivi chiari, mentre altri hanno una certa organizzazione ma non seguono regole rigide. I documenti non strutturati, d'altra parte, non hanno un formato chiaro e sono principalmente composti da testo.
Estrarre informazioni utili da questi documenti in modo automatico è fondamentale, soprattutto nel settore finanziario. Le istituzioni finanziarie come le banche gestiscono un gran numero di documenti ogni giorno. Automatizzare il processo di estrazione delle informazioni da questi documenti può far risparmiare molto tempo e fatica. Utilizzando tecniche di Elaborazione del linguaggio naturale (NLP) e Visione Artificiale, le banche possono semplificare le loro operazioni e concentrarsi di più su compiti importanti, come aiutare i clienti e prendere decisioni.
Quando si tratta di estrarre informazioni, è importante pensare alla struttura e al contenuto di un documento. Questo può influenzare notevolmente quanto bene possiamo estrarre le informazioni necessarie. Potrebbero essere necessari metodi e tecnologie diversi a seconda del tipo di documento. Ad esempio, i documenti non strutturati potrebbero richiedere una comprensione più profonda della lingua poiché non seguono un formato chiaro. D'altra parte, i documenti strutturati potrebbero consentire un'estrazione più semplice poiché le informazioni sono generalmente organizzate in un formato noto, come una tabella o un modulo.
Utilizzare sistemi multimodali per l'Estrazione di informazioni chiave (KIE) può essere particolarmente utile, poiché questi sistemi possono combinare informazioni dal testo, dal layout e dalle caratteristiche visive dei documenti. Anche se ci sono stati molti studi sui documenti strutturati, i documenti non strutturati sono ancora un'area di studio in crescita. Questo è principalmente dovuto alle sfide che questi documenti presentano e alla disponibilità limitata di dataset per studiarli.
Recentemente, abbiamo visto pubblicare più dataset pubblici, specialmente per documenti strutturati e semi-strutturati. Questo ha portato a un aumento della popolarità dei modelli basati su trasformatori, come BERTgrid e ViBERTgrid. Questi modelli possono trovare sezioni importanti in un documento utilizzando informazioni sulla loro posizione. Tuttavia, non sono stati testati a fondo con documenti non strutturati.
Scopo dello Studio
Questo studio ha l'obiettivo di vedere quanto bene i trasformatori multimodali possono lavorare con documenti non strutturati. Introduciamo un nuovo modello chiamato ViBERTgrid BiLSTM-CRF, che combina le capacità di ViBERTgrid e un altro modello noto come BiLSTM-CRF. ViBERTgrid è utile per generare rappresentazioni visive e word embeddings ricchi, mentre BiLSTM-CRF consente una migliore comprensione della sintassi e del contesto su testi più lunghi.
Valuteremo il nostro modello su un dataset di ordini di trasferimento di denaro non strutturati e su un dataset di ricevute semi-strutturate chiamato SROIE. Inoltre, rilasceremo un nuovo set di annotazioni a livello di token per il dataset SROIE per facilitare il suo utilizzo nei modelli multimodali. I nostri principali contributi sono:
- Abbiamo migliorato le prestazioni di ViBERTgrid su documenti non strutturati aggiungendo uno strato BiLSTM-CRF.
- Dimostriamo che questo nuovo modello funziona bene anche su documenti semi-strutturati.
- Condividiamo pubblicamente le annotazioni a livello di token del dataset SROIE per uso altrui.
Struttureremo il documento in modo semplice. La prossima sezione rivede la ricerca precedente sull'estrazione di informazioni dai documenti. Dopo, spiegheremo i dettagli dell'architettura ViBERTgrid BiLSTM-CRF. Poi, tratteremo la nostra configurazione sperimentale e presenteremo i risultati ottenuti. Infine, riassumeremo le nostre principali scoperte e suggeriremo possibili direzioni per la ricerca futura.
Lavori Correlati
Il processo di estrazione di informazioni dai documenti può comportare diversi compiti, tra cui la classificazione dei documenti, il riconoscimento del testo tramite riconoscimento ottico dei caratteri (OCR), l'identificazione di entità nominate e l'estrazione di relazioni. La maggior parte dei metodi attuali tratta l'estrazione di informazioni chiave come un problema di tagging di sequenze, utilizzando tecniche di riconoscimento di entità nominate (NER) per affrontare il problema.
Tuttavia, alcuni dataset KIE non hanno annotazioni dettagliate per ogni token, il che porta i ricercatori a sviluppare le proprie soluzioni. Per affrontare questo problema, forniamo uno strato di annotazione a livello di token per il dataset SROIE in questo studio.
Prima della popolarità delle reti neurali profonde, i campi casuali condizionali (CRF) erano un approccio comune per il NER. I CRF modellano le dipendenze tra le previsioni utilizzando una macchina a stati finiti. Tuttavia, quando è diventato chiaro che comprendere le parole richiede più contesto rispetto ai semplici vicini immediati, le reti neurali ricorrenti (RNN) e le loro versioni, come le reti di memoria a lungo termine (LSTM) e le unità ricorrenti a gate (GRU), sono venute alla ribalta. I modelli BiLSTM-CRF si sono dimostrati robusti per il tagging delle sequenze, sfruttando sia il contesto passato che quello futuro nel testo.
Con l'avvento di modelli di linguaggio di grandi dimensioni come ELMo, BERT e GPT-3, i compiti NER hanno visto miglioramenti significativi. Questi modelli sono addestrati su enormi quantità di testo e possono sviluppare rappresentazioni ricche del linguaggio. Possono essere ulteriormente addestrati per compiti specifici e apprendere i significati delle parole in relazione al contesto circostante, portando a previsioni più accurate.
Utilizzare modelli multimodali che combinano informazioni testuali, di layout e visive per il NER è un campo di ricerca promettente. Questi modelli possono sfruttare le caratteristiche visive, come l'organizzazione di testo e immagini nei documenti, per migliorare la loro precisione. Ad esempio, questi modelli possono utilizzare la posizione delle entità in una tabella per meglio identificare ed estrarre informazioni.
Alcuni ricercatori hanno lavorato per rappresentare i documenti con un metodo chiamato Chargrid, che trasforma ogni pagina in una griglia di caratteri. Sebbene sia utile per documenti strutturati, questo metodo potrebbe non essere così efficace per documenti non strutturati. Un metodo più recente, BERTgrid, rappresenta i documenti come griglie di word piece embeddings ottenuti da BERT. Utilizzando questo approccio, il modello può accedere più facilmente alla struttura spaziale e al significato del documento, portando a un'analisi migliore.
Anche se BERTgrid si è dimostrato efficace, non utilizza appieno la capacità del modello BERT poiché i suoi parametri non vengono regolati durante l'addestramento. ViBERTgrid mira a risolvere questo problema combinando BERTgrid con una rete neurale convoluzionale (CNN) per analizzare contemporaneamente sia le caratteristiche visive che le informazioni testuali. Consentendo l'addestramento congiunto di entrambe le reti, ViBERTgrid guadagna migliori word embeddings specifici per il contesto.
Architettura ViBERTgrid BiLSTM-CRF
Introduciamo una versione modificata dell'architettura ViBERTgrid progettata per migliorare le sue prestazioni per i compiti KIE. Il modello ViBERTgrid BiLSTM-CRF è composto da tre parti principali:
- L'architettura adattata che combina ViBERTgrid con uno strato BiLSTM-CRF.
- Una rete backbone multimodale che crea la mappa delle caratteristiche di ViBERTgrid.
- Una testa di classificazione per prevedere le etichette per ogni parola nel documento. Ci sono due varianti di questa testa di classificazione: una con il layer BiLSTM-CRF e una senza.
Per creare la rappresentazione di ViBERTgrid, prima generiamo la rappresentazione BERTgrid e la combiniamo con i layer intermedi della CNN. BERTgrid prende come input un'immagine di documento e utilizza l'OCR per identificare parole e le loro posizioni. Ogni parola viene suddivisa in pezzi più piccoli, consentendo al modello di catturare sfumature linguistiche più sottili.
La combinazione delle informazioni visive dalla CNN con le caratteristiche testuali da BERTgrid aiuta a creare una comprensione più completa del documento. Questo prepara meglio il modello a estrarre efficacemente informazioni chiave.
Configurazione Sperimentale
Abbiamo valutato l'efficacia del modello proposto su due dataset: SROIE e due set di documenti di ordini di trasferimento di denaro turchi (UTD e UMTD). Il dataset SROIE contiene ricevute ed è ben considerato negli studi di estrazione di informazioni semi-strutturate. Ha quattro tipi di entità: azienda, data, indirizzo e totale. Abbiamo migliorato questo dataset attraverso annotazioni manuali per garantire che le etichette delle parole corrispondessero ai dati OCR corrispondenti.
Il dataset UTD comprende documenti bancari reali, mentre il dataset UMTD include più transazioni in un singolo documento. Abbiamo utilizzato suddivisioni specifiche fornite nella ricerca precedente per addestramento, validazione e test.
Per addestrare i modelli, abbiamo impiegato diverse strategie di ottimizzazione e utilizzato due ottimizzatori AdamW separati per i componenti BERT e CNN. Abbiamo anche implementato misure per prevenire l'overfitting, come l'adattamento del tasso di apprendimento quando i punteggi di validazione non miglioravano.
Per valutare le prestazioni del modello, abbiamo utilizzato lo script di valutazione ufficiale SROIE per ottenere punteggi F1. Per i dataset UTD e UMTD, abbiamo applicato la tecnica di valutazione dei punteggi F1 a livello di campo NER. Abbiamo accuratamente addestrato e testato ogni modello più volte per garantire l'affidabilità dei nostri risultati.
Risultati
I nostri risultati mostrano le prestazioni del ViBERTgrid originale e delle versioni aggiornate BiLSTM-CRF sul dataset SROIE. Abbiamo applicato tecniche per ripulire le previsioni di entrambi i modelli per eliminare risultati indesiderati, come token irrilevanti.
Quando abbiamo esaminato i punteggi, abbiamo scoperto che l'aggiunta dello strato BiLSTM-CRF ha dato un piccolo aumento delle prestazioni sul dataset SROIE. Tuttavia, questo miglioramento non era statisticamente significativo, suggerendo che i benefici del nuovo strato potrebbero essere più pronunciati in documenti non strutturati che nei layout semi-strutturati di SROIE.
Per i documenti transazionali non strutturati, abbiamo fatto osservazioni significative. Il modello vanilla ViBERTgrid non ha performato bene come un modello puramente testuale sul dataset UTD. Tuttavia, quando abbiamo incluso lo strato BiLSTM-CRF, le prestazioni del modello sono aumentate drammaticamente, portando a punteggi F1 migliorati.
I miglioramenti erano evidenti anche nei documenti multi-transazione, dove uno strato BiLSTM-CRF ha portato a punteggi più alti in tutti i set di test. Tuttavia, in situazioni con layout simili a tabelle, i guadagni non erano statisticamente significativi.
Discussione e Conclusione
Attraverso questo studio, abbiamo ottenuto preziose informazioni su come le caratteristiche visive possono influenzare l'estrazione di informazioni da documenti finanziari non strutturati. Sebbene i risultati iniziali mostrassero che il modello originale ViBERTgrid non era così efficace con documenti non strutturati rispetto a un modello puramente testuale, l'introduzione dello strato BiLSTM-CRF ha portato a miglioramenti notevoli.
In generale, il modello ViBERTgrid BiLSTM-CRF ha mostrato chiari vantaggi, ottenendo risultati migliori su documenti non strutturati mentre mantenendo prestazioni su formati semi-strutturati. Inoltre, rilasciando annotazioni a livello di token per il dataset SROIE, miriamo a supportare lo sviluppo di modelli multimodali più efficaci.
Guardando al futuro, speriamo di indagare ulteriormente il ruolo della nostra architettura in relazione ad altri compiti, specialmente per l'estrazione di relazioni. Questo potrebbe fornire approfondimenti più profondi e confronti con modelli multimodali esistenti.
Vogliamo anche esprimere gratitudine al nostro team e ai revisori per i loro preziosi contributi e feedback durante questo processo di ricerca.
Titolo: ViBERTgrid BiLSTM-CRF: Multimodal Key Information Extraction from Unstructured Financial Documents
Estratto: Multimodal key information extraction (KIE) models have been studied extensively on semi-structured documents. However, their investigation on unstructured documents is an emerging research topic. The paper presents an approach to adapt a multimodal transformer (i.e., ViBERTgrid previously explored on semi-structured documents) for unstructured financial documents, by incorporating a BiLSTM-CRF layer. The proposed ViBERTgrid BiLSTM-CRF model demonstrates a significant improvement in performance (up to 2 percentage points) on named entity recognition from unstructured documents in financial domain, while maintaining its KIE performance on semi-structured documents. As an additional contribution, we publicly released token-level annotations for the SROIE dataset in order to pave the way for its use in multimodal sequence labeling models.
Autori: Furkan Pala, Mehmet Yasin Akpınar, Onur Deniz, Gülşen Eryiğit
Ultimo aggiornamento: 2024-09-23 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2409.15004
Fonte PDF: https://arxiv.org/pdf/2409.15004
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.