Migliorare il riconoscimento delle entità nelle immagini dei documenti
Nuovo metodo basato su grafi migliora l'estrazione delle entità da diversi tipi di documenti.
― 5 leggere min
Indice
Riconoscere le entità nelle immagini di documenti è importante per estrarre pezzi specifici di informazioni da vari tipi di documenti come moduli, ricevute e tabelle. I metodi tradizionali spesso si basano solo sull'analisi del testo, ma questo approccio ignora il layout e le relazioni spaziali presenti in questi documenti. Questo articolo introduce un nuovo metodo che utilizza un approccio basato su grafi per migliorare il Riconoscimento delle entità nelle immagini di documenti, soprattutto quando ci sono pochi Dati di addestramento disponibili.
Problema con i Metodi Esistenti
Tecniche recenti hanno cercato di utilizzare le informazioni di layout usando le coordinate delle bounding box, che aiutano a definire dove si trova ciascun pezzo di testo. Anche se questo metodo è semplice ed efficace, ha dei punti deboli. I documenti possono subire alterazioni come spostamenti, rotazioni o ridimensionamenti, che possono cambiare significativamente le coordinate del testo. Questo significa che, se ci basiamo solo su queste coordinate, potremmo non identificare accuratamente le entità che vogliamo estrarre.
Metodo Proposto
Per affrontare questi problemi, proponiamo un nuovo approccio che enfatizza le posizioni relative dei Token (o segmenti di testo) in un Documento. Invece di usare solo le coordinate delle bounding box, consideriamo come i token sono connessi tra loro per formare un grafo. In questo modello, ciascun token è un nodo, e creiamo archi tra i token in base alle loro relazioni spaziali.
Costruzione del Grafo
Costruiamo questi grafi utilizzando due metodi:
- k-vicini più prossimi nello spazio: Per ogni token, lo connettiamo ai token più vicini in base alla loro distanza nel documento.
- k-vicini più prossimi agli angoli: Questo metodo considera la direzione in cui guardiamo i token. Troviamo i token più vicini in base a vari angoli dalla posizione di ciascun token.
Creando i grafi in questo modo, ci assicuriamo che il nostro modello possa rappresentare accuratamente le relazioni tra i token anche se il documento viene spostato, ruotato o ridimensionato.
Integrazione con i Modelli Linguistici
Poi combiniamo questi grafi con modelli linguistici esistenti, che sono pre-addestrati per comprendere il testo. La nuova struttura che formiamo permette al modello di sfruttare sia le informazioni di layout che le relazioni tra le parole. Questa combinazione aiuta a migliorare l'accuratezza del riconoscimento delle entità.
Vantaggi del Nuovo Approccio
Il nostro metodo ha diversi vantaggi:
- Robustezza: È meno influenzato dalle alterazioni delle immagini. Le relazioni topologiche che usiamo possono mantenere il loro significato anche quando il documento subisce manipolazioni comuni.
- Efficienza in Condizioni di Pochi Dati: Il metodo funziona bene anche con dati di addestramento limitati. Permette al modello di generalizzare meglio a nuovi documenti mai visti.
Esperimenti e Risultati
Per validare il nostro approccio, abbiamo condotto esperimenti su due dataset, che includono vari tipi di documenti e un ricco set di annotazioni. Abbiamo confrontato il nostro nuovo metodo con i modelli tradizionali usando LayoutLMv2 e LayoutLMv3.
Panoramica del Dataset
- FUNSD: Questo dataset contiene moduli che sono stati scannerizzati e annotati. Include diversi tipi di etichette come "intestazione", "domanda" e "risposta".
- CORD: Questo dataset consiste in ricevute e include varie etichette che aiutano a categorizzare le informazioni presenti nei documenti.
Metriche di Valutazione
Abbiamo utilizzato metriche standard per valutare le performance, come precisione, richiamo e punteggio F1. Queste metriche ci aiutano a capire quanto accuratamente i nostri modelli identificano le entità rispetto alle verità di riferimento annotate da umani.
Risultati
I nostri esperimenti hanno mostrato alcuni risultati chiave:
- Il nostro modello basato su grafo ha superato significativamente i modelli tradizionali in entrambi i dataset.
- I miglioramenti sono stati particolarmente notevoli in condizioni di pochi dati, dove il numero di campioni di addestramento era limitato.
- Quando abbiamo alterato le immagini dei documenti tramite spostamenti, ridimensionamenti o rotazioni, il nostro modello ha mantenuto una performance superiore rispetto ai baseline.
Casi Studio
Abbiamo anche incluso casi studio specifici per mostrare l'efficacia del nostro modello. In un esempio dal dataset FUNSD, il modello tradizionale ha classificato erroneamente alcuni token, mentre il nostro modello ha identificato correttamente le relazioni tra di essi. Allo stesso modo, in un esempio di CORD, il nostro metodo ha riconosciuto con accuratezza un'etichetta complessa che confondeva i modelli di riferimento.
Conclusione
Questo studio presenta un nuovo modo per affrontare il riconoscimento delle entità nelle immagini di documenti utilizzando un approccio basato su grafi che evidenzia le relazioni tra i token. Integrando questo con potenti modelli linguistici, compiamo significativi progressi nell'affrontare le limitazioni dei metodi precedenti, specialmente in situazioni difficili che coinvolgono manipolazioni delle immagini e dati di addestramento limitati.
Lavori Futuri
Guardando al futuro, intendiamo applicare il nostro framework ad altri tipi di modelli ed esplorare ulteriori caratteristiche che potrebbero avvantaggiare il riconoscimento delle entità. Vogliamo includere relazioni semantiche, oltre a quelle topologiche, per migliorare ulteriormente le capacità del nostro metodo. Riconosciamo anche che la struttura dei nostri grafi può variare significativamente in base ai tipi di documenti, e indagheremo come queste differenze influenzano le performance.
Considerazioni Etiche
Il nostro lavoro utilizza dataset disponibili pubblicamente e si basa su modelli open-source. Siamo impegnati nella trasparenza nella nostra ricerca e pianifichiamo di condividere il nostro codice e le nostre metodologie. Non prevediamo preoccupazioni etiche derivanti dal nostro approccio.
Riepilogo dei Modelli Baseline
Abbiamo confrontato il nostro modello con diversi modelli ben noti che si comportano bene nel campo del riconoscimento delle entità:
- BERT: Questo modello si concentra sul testo ed è addestrato per prevedere parole mascherate comprendendo le relazioni tra le frasi.
- RoBERTa: Una versione migliorata di BERT, addestrata su più dati con metodi di pre-addestramento ottimizzati.
- LayoutLM: Questo modello combina le informazioni di layout con il testo, permettendogli di considerare gli embedding spaziali.
- LayoutLMv2 e LayoutLMv3: Questi modelli migliorano ulteriormente LayoutLM integrando informazioni visive e ottimizzando l'allineamento tra testo e immagini.
In conclusione, il nostro metodo proposto mostra risultati promettenti che potrebbero portare a un miglior riconoscimento delle entità nei documenti, rendendolo più resistente alle alterazioni e meglio adatto per applicazioni nel mondo reale.
Titolo: Towards Few-shot Entity Recognition in Document Images: A Graph Neural Network Approach Robust to Image Manipulation
Estratto: Recent advances of incorporating layout information, typically bounding box coordinates, into pre-trained language models have achieved significant performance in entity recognition from document images. Using coordinates can easily model the absolute position of each token, but they might be sensitive to manipulations in document images (e.g., shifting, rotation or scaling), especially when the training data is limited in few-shot settings. In this paper, we propose to further introduce the topological adjacency relationship among the tokens, emphasizing their relative position information. Specifically, we consider the tokens in the documents as nodes and formulate the edges based on the topological heuristics from the k-nearest bounding boxes. Such adjacency graphs are invariant to affine transformations including shifting, rotations and scaling. We incorporate these graphs into the pre-trained language model by adding graph neural network layers on top of the language model embeddings, leading to a novel model LAGER. Extensive experiments on two benchmark datasets show that LAGER significantly outperforms strong baselines under different few-shot settings and also demonstrate better robustness to manipulations.
Autori: Prashant Krishnan, Zilong Wang, Yangkun Wang, Jingbo Shang
Ultimo aggiornamento: 2024-02-23 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2305.14828
Fonte PDF: https://arxiv.org/pdf/2305.14828
Licenza: https://creativecommons.org/licenses/by-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.