Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Apprendimento automatico

Migliorare il riconoscimento della struttura delle tabelle con dataset allineati

Allineare i dataset migliora le prestazioni del modello nei compiti di riconoscimento della struttura delle tabelle.

― 5 leggere min


Allineare i Dataset perAllineare i Dataset perun RiconoscimentoMigliorestrutture delle tabelle.l'accuratezza nel riconoscimento delleI dataset allineati migliorano
Indice

Il riconoscimento della struttura delle tabelle (TSR) è fondamentale per capire i dati nelle tabelle di diversi documenti. Per aiutare le macchine a imparare meglio da vari dataset, è cruciale garantire che questi dataset siano chiari, coerenti e privi di Errori. Tuttavia, molti Dataset di riferimento esistenti possono avere errori e incongruenze che possono influire negativamente sulle prestazioni dei modelli di machine learning progettati per questo compito.

In questo articolo, parliamo di come allineare i dataset di riferimento può migliorare le Prestazioni del Modello per il TSR. Ci concentriamo su due grandi dataset, FinTabNet e PubTables-1M, oltre al dataset ICDAR-2013, che è spesso utilizzato per la valutazione.

L'importanza di dataset coerenti

Le annotazioni di un dataset devono essere coerenti al suo interno e con altri dataset. Anche piccoli errori in un dataset possono danneggiare il modo in cui i modelli vengono addestrati e valutati. Ad esempio, un dataset di riferimento potrebbe sembrare a posto se guardato da solo, ma se combinato con altri che non sono allineati, può portare a prestazioni scarse. Questa disallineamento agisce come un'altra fonte di rumore, influenzando i modelli che si basano su questi dataset.

Gli effetti di errori e incongruenze

Gli errori possono variare da errori diretti di Etichettatura a incongruenze sottili tra dataset. Quando parliamo di "disallineamento", intendiamo che i dataset per lo stesso compito potrebbero essere etichettati in modo diverso, il che può confondere i modelli e portare a previsioni errate. Questo articolo mira a esplorare come correggere questi errori può portare a un notevole incremento delle prestazioni del modello.

Dataset selezionati

Per il nostro studio, abbiamo lavorato con FinTabNet e PubTables-1M per l'addestramento, e abbiamo usato ICDAR-2013 come benchmark di valutazione. FinTabNet presenta circa 113.000 tabelle da report finanziari, mentre PubTables-1M include quasi un milione di tabelle da documenti scientifici. Il dataset ICDAR-2013 ha tabelle da vari documenti, annotate manualmente da esperti, rendendolo utile per valutare le prestazioni del modello nonostante la sua dimensione più ridotta.

Passaggi di elaborazione dei dati

Per allineare questi dataset, abbiamo dovuto correggere numerosi errori presenti nelle annotazioni originali. Ogni dataset includeva tipi specifici di errori, come scatole di delimitazione errate per le celle della tabella o incongruenze nell'etichettatura. Ad esempio, alcune tabelle includevano righe vuote superflue, che non hanno alcuno scopo logico e quindi possono essere considerate errori.

Abbiamo anche aggiunto etichette mancanti per migliorare la qualità e l'usabilità dei dataset. Questo ha comportato la definizione delle scatole di delimitazione per righe e colonne e l'etichettatura corretta delle celle header. Ogni fase di correzione dei dati è stata effettuata con cura per migliorare la qualità complessiva dei dataset per l'addestramento dei modelli.

Addestramento del modello

Abbiamo utilizzato il modello Table Transformer (TATR) per svolgere i nostri esperimenti. TATR è progettato per inquadrare il riconoscimento della struttura delle tabelle come un tipo di rilevamento degli oggetti, usando diverse classi per identificare i componenti della tabella. L'architettura del modello è rimasta costante mentre abbiamo apportato miglioramenti solo ai dati utilizzati per l'addestramento.

Durante i nostri esperimenti, abbiamo addestrato il modello sia con i dataset originali che con quelli corretti. Ogni modello è stato valutato dopo ogni sessione di addestramento, il che ci ha permesso di osservare come i miglioramenti nei dataset hanno influito direttamente sulle prestazioni del modello.

Risultati delle correzioni dei dataset

Dopo aver allineato i dataset e corretto gli errori, abbiamo visto miglioramenti sostanziali nelle prestazioni del modello. Ad esempio, la precisione di TATR sul dataset ICDAR-2013 è aumentata notevolmente quando addestrata sui dataset corretti di FinTabNet e PubTables-1M. In particolare, la precisione è passata dal 42% al 65% per FinTabNet e dal 65% al 75% per PubTables-1M quando valutata su ICDAR-2013.

Abbiamo anche stabilito nuovi benchmark di prestazione, ottenendo un punteggio di relazione di adiacenza diretta (DAR) di 0,965 e una precisione di corrispondenza esatta dell'81% sul dataset ICDAR-2013 combinando i due dataset di addestramento. Questo dimostra che ripulire i dati può portare a risultati molto migliori.

Il ruolo della canonizzazione

Un passaggio importante nel nostro approccio ha coinvolto una tecnica chiamata canonizzazione. Questo processo ha aiutato a standardizzare le etichette tra diversi dataset. I nostri esperimenti di ablazione hanno dimostrato che questo passaggio è stato particolarmente efficace nel migliorare le prestazioni del modello. Rendendo le annotazioni più coerenti, abbiamo ridotto la confusione per i modelli e migliorato la loro precisione complessiva.

Conclusione

Questo lavoro mette in luce l'importanza di avere dataset allineati e corretti per i compiti di riconoscimento della struttura delle tabelle. Concentrandoci sull'allineamento dei dataset di riferimento, abbiamo dimostrato che le prestazioni del modello possono migliorare notevolmente. I risultati indicano che anche i modelli esistenti possono funzionare meglio quando addestrati su dati più puliti e coerenti.

Nel lavoro futuro, continuerà a essere cruciale perfezionare i dataset ed esplorare metodi per migliorare ulteriormente l'addestramento dei modelli. Incoraggiamo i ricercatori a considerare la qualità dei dati che usano, poiché può avere un ruolo significativo nel successo dei loro modelli. Migliorando i benchmark per il riconoscimento della struttura delle tabelle, apriamo la strada a strumenti migliori che possono gestire efficacemente i dati nelle tabelle, a beneficio di vari settori tra cui finanza, scienza e oltre.

Fonte originale

Titolo: Aligning benchmark datasets for table structure recognition

Estratto: Benchmark datasets for table structure recognition (TSR) must be carefully processed to ensure they are annotated consistently. However, even if a dataset's annotations are self-consistent, there may be significant inconsistency across datasets, which can harm the performance of models trained and evaluated on them. In this work, we show that aligning these benchmarks$\unicode{x2014}$removing both errors and inconsistency between them$\unicode{x2014}$improves model performance significantly. We demonstrate this through a data-centric approach where we adopt one model architecture, the Table Transformer (TATR), that we hold fixed throughout. Baseline exact match accuracy for TATR evaluated on the ICDAR-2013 benchmark is 65% when trained on PubTables-1M, 42% when trained on FinTabNet, and 69% combined. After reducing annotation mistakes and inter-dataset inconsistency, performance of TATR evaluated on ICDAR-2013 increases substantially to 75% when trained on PubTables-1M, 65% when trained on FinTabNet, and 81% combined. We show through ablations over the modification steps that canonicalization of the table annotations has a significantly positive effect on performance, while other choices balance necessary trade-offs that arise when deciding a benchmark dataset's final composition. Overall we believe our work has significant implications for benchmark design for TSR and potentially other tasks as well. Dataset processing and training code will be released at https://github.com/microsoft/table-transformer.

Autori: Brandon Smock, Rohith Pesala, Robin Abraham

Ultimo aggiornamento: 2023-05-23 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2303.00716

Fonte PDF: https://arxiv.org/pdf/2303.00716

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili