Migliorare la comprensione dei documenti tramite dati debolmente etichettati
Un nuovo modo per migliorare i modelli VDER usando dati documentali diversi.
― 7 leggere min
Indice
- La Sfida della Comprensione dei Documenti
- Modelli Attuali e le Loro Limitazioni
- Processo di Raccolta Dati
- Creazione di un Elenco Ontologico
- Tokenizzazione Multimodale
- Pipeline di Pre-Addestramento
- Annotazione e Controllo della Qualità
- Vantaggi dell'Approccio
- Risultati Sperimentali
- L'Importanza della Diversità dei Dati
- Lavori Futuri
- Conclusione
- Fonte originale
- Link di riferimento
I compiti di comprensione dei documenti sono diventati importanti, soprattutto nel campo dell'AI aziendale. Un compito specifico è il Recupero di Entità da Documenti Visivamente Ricchi (VDER). Questo compito aiuta a identificare ed estrarre informazioni da documenti che contengono sia immagini che testo. Tuttavia, un grosso problema in quest'area è la mancanza di dati disponibili pubblicamente. Questo è principalmente dovuto a preoccupazioni sulla privacy e ai costi elevati di Annotazione dei documenti. Inoltre, dataset diversi spesso hanno tipi di entità diversi, il che rende difficile trasferire conoscenze tra loro.
Questo articolo discute un nuovo modo per raccogliere un gran numero di documenti debolmente etichettati dal web per migliorare l'addestramento dei modelli VDER. Il dataset che abbiamo raccolto non è limitato a tipi specifici di documenti o set di entità. Di conseguenza, può essere utilizzato per tutti i tipi di compiti di comprensione dei documenti.
La Sfida della Comprensione dei Documenti
La comprensione dei documenti è spesso vista come un compito impegnativo. Molte persone affrontano errori e difficoltà quando cercano di capire i documenti nella vita quotidiana. Il machine learning ha reso possibile automatizzare alcuni di questi compiti, ma ci sono ancora sfide significative da superare.
In un tipico compito VDER, le informazioni devono essere recuperate dai documenti in base a specifici tipi di entità. Questi tipi potrebbero includere "importo", "data" e "nome dell'oggetto", comuni nelle fatture. Uno dei principali problemi è la disponibilità limitata di immagini grezze di documenti, principalmente perché molti documenti contengono informazioni personali protette dalle leggi sulla privacy.
Anche i costi associati all'annotazione di questi documenti sono elevati. Spesso, questo compito richiede annotatori esperti, il che aggrava le sfide. Inoltre, diversi tipi di documenti possono avere etichette e significati incoerenti, rendendo più difficile condividere conoscenze tra i vari tipi di documenti.
Modelli Attuali e le Loro Limitazioni
Vari modelli sono stati proposti per i compiti VDER, ma ognuno di essi ha le proprie limitazioni. Di solito, i metodi esistenti partono da un modello linguistico che viene poi affinato utilizzando dataset di documenti con ulteriori caratteristiche di layout e visive. Anche il dataset più grande attualmente disponibile, il dataset IIT-CDIP, ha le sue limitazioni, poiché rappresenta solo un piccolo campione di tipi di documenti.
Questo articolo introduce un nuovo metodo per costruire un dataset che faciliterà un pre-addestramento su larga scala per i modelli VDER. Il dataset è raccolto dal web usando una struttura specifica che considera centinaia di tipi di documenti e la loro organizzazione in livelli.
Processo di Raccolta Dati
Raccogliere immagini dal web può sembrare semplice, ma in realtà richiede un approccio ben pianificato. La maggior parte delle immagini su Internet non corrisponde ai tipi di documenti che cerchiamo. Un modo più efficace per raccogliere le immagini rilevanti è attraverso una ricerca per vicino più vicino utilizzando parole chiave pertinenti.
Il processo inizia creando un elenco di parole chiave in inglese che si collega a diversi tipi di documenti. Queste parole chiave vengono quindi codificate in uno spazio congiunto che include sia testo che immagini. Un algoritmo di recupero può quindi trovare le immagini più pertinenti basate su queste parole chiave. Dopo aver raccolto le immagini, viene applicato un processo di deduplicazione per garantire che rimangano solo immagini uniche.
Creazione di un Elenco Ontologico
Una parte importante di questo processo è la creazione di un elenco ontologico che funge da base per il recupero delle immagini. Un'ontologia ben strutturata dovrebbe includere un'ampia gamma di parole chiave rilevanti relative ai domini documentali, tra cui finanza, affari, questioni legali e istruzione. Questo documento delinea un elenco curato di circa 400 parole chiave relative ai documenti che coprono vari soggetti.
Tokenizzazione Multimodale
Una volta raccolte le immagini dei documenti, devono essere elaborate per renderle utilizzabili per il machine learning. Il primo passo in questo processo è applicare il Riconoscimento Ottico dei Caratteri (OCR) per convertire le immagini in testo. Ogni carattere estratto viene fornito con le sue coordinate di bounding box, permettendo di capire dove si trovava il testo nell'immagine.
Dopo questo passaggio, si procede con una tokenizzazione multimodale. I token di testo sono allineati con le sezioni delle immagini che rappresentano informazioni visive rilevanti per ciascun token. Questo allineamento consente una comprensione più integrata sia dei dati testuali che visivi.
Pipeline di Pre-Addestramento
La pipeline di pre-addestramento include molteplici obiettivi che aiutano a migliorare le capacità di apprendimento del modello. In questa fase, le sequenze di testo generate dall'OCR vengono utilizzate insieme alle sezioni delle immagini per insegnare al modello come elaborare e comprendere meglio i documenti. Ogni input è combinato con embedding di posizione per catturare l'arrangiamento spaziale del testo e delle immagini.
Annotazione e Controllo della Qualità
Una volta generato il testo, viene sottoposto a un processo di annotazione debole per classificare i segmenti in diverse categorie come indirizzi email, date, prezzi e nomi. Anche se alcune classificazioni possono contenere errori, avere queste etichette fornisce ulteriore guida per il modello durante il pre-addestramento.
Per garantire che il dataset rimanga di alta qualità, vengono applicati metodi di filtraggio euristico. Questo passaggio elimina i campioni in cui i risultati OCR sono scarsi a causa di immagini sfocate. È fondamentale mantenere alta la qualità dei dati raccolti, poiché campioni di bassa qualità possono ostacolare il processo di apprendimento del modello.
Vantaggi dell'Approccio
L'approccio discusso in questo articolo consente di raccogliere grandi quantità di dati documentali diversificati a un costo inferiore rispetto ai metodi tradizionali di raccolta dati. Inoltre, i dati raccolti sono ben strutturati e annotati, il che aiuta a migliorare l'addestramento dei modelli VDER.
Utilizzando recenti progressi nel machine learning e nei grandi modelli linguistici, il dataset proposto funge da risorsa significativa per migliorare i compiti di comprensione dei documenti.
Risultati Sperimentali
Sono stati condotti diversi esperimenti per testare l'efficacia del dataset raccolto. Diversi compiti di comprensione dei documenti sono stati valutati e i risultati hanno mostrato significativi miglioramenti delle prestazioni quando il nuovo dataset è stato integrato nell'addestramento sia dei modelli classici che di quelli di few-shot learning.
L'Importanza della Diversità dei Dati
Una scoperta notevole dagli esperimenti è l'importanza di avere un dataset diversificato. Una varietà di tipi di documenti contribuisce in modo significativo alle prestazioni del modello. Il nuovo dataset raccolto, che include 30 milioni di documenti provenienti da quasi 400 tipi di documenti diversi, dimostra chiari vantaggi rispetto a dataset più piccoli e monodomeniali.
Lavori Futuri
Sebbene i metodi attuali siano promettenti, ci sono ancora diverse aree che richiedono ulteriori esplorazioni. La ricerca futura potrebbe concentrarsi sul perfezionamento delle strategie di raccolta di parole chiave e immagini per ottimizzare i dati per risultati migliori del modello. Inoltre, c'è potenziale per indagare ulteriormente architetture progettate specificamente per utilizzare in modo efficace le grandi quantità di dati rumorosi.
Un'altra area da considerare è come gestire efficacemente i diversi tipi di documenti. Molti documenti possono avere strutture simili ma contenuti diversi, il che richiede modelli adattabili a gestire sia form filled che unfilled.
Conclusione
Questo articolo presenta un nuovo metodo per raccogliere e elaborare grandi quantità di dati documentali dal web per migliorare i compiti di comprensione dei documenti, in particolare VDER. L'approccio non solo affronta le attuali sfide in quest'area, come la scarsità dei dati e le preoccupazioni sulla privacy, ma sottolinea anche l'importanza di avere un dataset diversificato e ben strutturato.
In generale, i risultati indicano che i metodi proposti portano a significativi miglioramenti nelle prestazioni del modello, rendendolo un contributo prezioso nel campo della comprensione dei documenti. Le future ricerche dovrebbero basarsi su queste scoperte per migliorare ulteriormente le capacità dei modelli VDER e esplorare nuovi modi di utilizzare i dati raccolti in modo più efficiente.
Titolo: DocumentNet: Bridging the Data Gap in Document Pre-Training
Estratto: Document understanding tasks, in particular, Visually-rich Document Entity Retrieval (VDER), have gained significant attention in recent years thanks to their broad applications in enterprise AI. However, publicly available data have been scarce for these tasks due to strict privacy constraints and high annotation costs. To make things worse, the non-overlapping entity spaces from different datasets hinder the knowledge transfer between document types. In this paper, we propose a method to collect massive-scale and weakly labeled data from the web to benefit the training of VDER models. The collected dataset, named DocumentNet, does not depend on specific document types or entity sets, making it universally applicable to all VDER tasks. The current DocumentNet consists of 30M documents spanning nearly 400 document types organized in a four-level ontology. Experiments on a set of broadly adopted VDER tasks show significant improvements when DocumentNet is incorporated into the pre-training for both classic and few-shot learning settings. With the recent emergence of large language models (LLMs), DocumentNet provides a large data source to extend their multi-modal capabilities for VDER.
Autori: Lijun Yu, Jin Miao, Xiaoyu Sun, Jiayi Chen, Alexander G. Hauptmann, Hanjun Dai, Wei Wei
Ultimo aggiornamento: 2023-10-26 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2306.08937
Fonte PDF: https://arxiv.org/pdf/2306.08937
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://dataverse.harvard.edu/dataverse/caselawaccess
- https://www.industrydocuments.ucsf.edu/
- https://cloud.google.com/vision/docs/ocr
- https://cloud.google.com/natural-language/docs/reference/rest/v1/Entity#type
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://ctan.org/pkg/amssymb
- https://ctan.org/pkg/pifont
- https://www.aclweb.org/portal/content/acl-code-ethics