Améliorer la reconnaissance de la structure des tableaux avec des ensembles de données alignés
Aligner les ensembles de données améliore la performance des modèles dans les tâches de reconnaissance de structures de table.
― 6 min lire
Table des matières
La reconnaissance de la structure des tableaux (TSR) est super importante pour comprendre les données dans les tableaux à travers différents documents. Pour aider les machines à mieux apprendre à partir de divers ensembles de données, il est crucial de s'assurer que ces ensembles sont clairs, cohérents et sans Erreurs. Cependant, beaucoup d'ensembles de référence existants peuvent avoir des erreurs et des incohérences qui peuvent impacter négativement la performance des modèles d'apprentissage machine conçus pour cette tâche.
Dans cet article, on va discuter de comment aligner les ensembles de référence peut améliorer la performance des modèles pour la TSR. On se concentre sur deux grands ensembles de données, FinTabNet et PubTables-1M, ainsi que sur l'ensemble de données ICDAR-2013, souvent utilisé pour l'évaluation.
L'Importance des Ensembles de Données Cohérents
Les annotations d'un ensemble de données doivent être cohérentes en elles-mêmes et avec d'autres ensembles de données. Même de petites erreurs dans un ensemble de données peuvent nuire à la façon dont les modèles s'entraînent et évaluent leur performance. Par exemple, un ensemble de référence peut sembler correct lorsqu'on le regarde seul, mais s'il est combiné avec d'autres qui ne sont pas alignés, ça peut mener à une mauvaise performance. Ce désalignement devient une autre source de bruit, affectant les modèles qui dépendent de ces ensembles de données.
Les Effets des Erreurs et Incohérences
Les erreurs peuvent varier d'erreurs directes dans l'Étiquetage à des incohérences subtiles entre les ensembles de données. Quand on parle de "désalignement", on veut dire que les ensembles de données pour la même tâche peuvent être étiquetés différemment, ce qui peut embrouiller les modèles et mener à des prédictions incorrectes. Cet article vise à explorer comment corriger ces erreurs peut entraîner un gros coup de pouce à la performance des modèles.
Ensembles de Données Sélectionnés
Pour notre étude, on a travaillé avec FinTabNet et PubTables-1M pour l'entraînement, et on a utilisé ICDAR-2013 comme référence d'évaluation. FinTabNet contient environ 113 000 tableaux de rapports financiers, tandis que PubTables-1M inclut près d'un million de tableaux de documents scientifiques. L'ensemble de données ICDAR-2013 a des tableaux provenant de différents documents, annotés manuellement par des experts, ce qui le rend utile pour évaluer la performance des modèles malgré sa plus petite taille.
Étapes de Traitement des Données
Pour aligner ces ensembles de données, on a dû corriger de nombreuses erreurs présentes dans les annotations originales. Chaque ensemble de données incluait des types spécifiques d'erreurs, comme des boîtes de délimitation incorrectes pour les cellules de tableau ou des incohérences dans l'étiquetage. Par exemple, certains tableaux incluaient des lignes vides inutiles, qui n'ont aucune raison logique d'exister et peuvent donc être considérées comme des erreurs.
On a aussi ajouté des étiquettes manquantes pour améliorer la qualité et l'utilisabilité des ensembles de données. Cela a impliqué de définir des boîtes de délimitation pour les lignes et les colonnes et d'étiqueter correctement les cellules d'en-tête. Chaque étape de correction des données a été effectuée avec soin pour améliorer la qualité globale des ensembles de données pour l'entraînement des modèles.
Entraînement du Modèle
On a utilisé le modèle Table Transformer (TATR) pour réaliser nos expériences. TATR est conçu pour encadrer la reconnaissance de la structure des tableaux comme un type de détection d'objets, en utilisant différentes classes pour identifier les composants du tableau. L'architecture du modèle est restée constante pendant que nous apportions des améliorations uniquement aux données utilisées pour l'entraînement.
Lors de nos expériences, on a entraîné le modèle avec les ensembles de données originaux et corrigés. Chaque modèle a été évalué après chaque session d'entraînement, ce qui nous a permis d'observer comment les améliorations des ensembles de données affectaient directement la Performance du Modèle.
Résultats des Corrections d'Ensemble de Données
Après avoir aligné les ensembles de données et corrigé les erreurs, on a vu des améliorations substantielles dans la performance du modèle. Par exemple, la précision de TATR sur le dataset ICDAR-2013 a fortement augmenté quand on l'a entraîné sur les ensembles de données corrigés de FinTabNet et PubTables-1M. Plus précisément, la précision est passée de 42% à 65% pour FinTabNet et de 65% à 75% pour PubTables-1M lors de l'évaluation sur ICDAR-2013.
On a également établi de nouveaux repères de performance, atteignant un score de relation d'adjacence dirigée (DAR) de 0,965 et une précision exacte de 81% sur l'ensemble de données ICDAR-2013 en combinant les deux ensembles d'entraînement. Ça montre que nettoyer les données peut mener à des résultats beaucoup meilleurs.
Le Rôle de la Canonicalisation
Une étape majeure dans notre approche a impliqué une technique appelée canonicalisation. Ce processus a aidé à standardiser les étiquettes entre différents ensembles de données. Nos expériences d'ablation ont montré que cette étape était particulièrement efficace pour améliorer la performance du modèle. En rendant les annotations plus cohérentes, on a réduit la confusion pour les modèles et amélioré leur précision globale.
Conclusion
Ce travail met en évidence l'importance d'avoir des ensembles de données alignés et corrigés pour les tâches de reconnaissance de structure de tableau. En se concentrant sur l'alignement des ensembles de référence, on a montré que la performance du modèle peut s'améliorer considérablement. Les résultats indiquent que même les modèles existants peuvent mieux performer quand ils sont entraînés sur des données plus propres et plus cohérentes.
Dans les travaux futurs, continuer à affiner les ensembles de données et explorer des méthodes pour améliorer encore l'entraînement des modèles sera crucial. On encourage les chercheurs à considérer la qualité des données qu'ils utilisent, car cela peut jouer un rôle significatif dans le succès de leurs modèles. En améliorant les repères pour la reconnaissance de la structure des tableaux, on ouvre la voie à de meilleurs outils capables de gérer efficacement les données dans les tableaux, ce qui profite à divers domaines y compris la finance, la science, et au-delà.
Titre: Aligning benchmark datasets for table structure recognition
Résumé: Benchmark datasets for table structure recognition (TSR) must be carefully processed to ensure they are annotated consistently. However, even if a dataset's annotations are self-consistent, there may be significant inconsistency across datasets, which can harm the performance of models trained and evaluated on them. In this work, we show that aligning these benchmarks$\unicode{x2014}$removing both errors and inconsistency between them$\unicode{x2014}$improves model performance significantly. We demonstrate this through a data-centric approach where we adopt one model architecture, the Table Transformer (TATR), that we hold fixed throughout. Baseline exact match accuracy for TATR evaluated on the ICDAR-2013 benchmark is 65% when trained on PubTables-1M, 42% when trained on FinTabNet, and 69% combined. After reducing annotation mistakes and inter-dataset inconsistency, performance of TATR evaluated on ICDAR-2013 increases substantially to 75% when trained on PubTables-1M, 65% when trained on FinTabNet, and 81% combined. We show through ablations over the modification steps that canonicalization of the table annotations has a significantly positive effect on performance, while other choices balance necessary trade-offs that arise when deciding a benchmark dataset's final composition. Overall we believe our work has significant implications for benchmark design for TSR and potentially other tasks as well. Dataset processing and training code will be released at https://github.com/microsoft/table-transformer.
Auteurs: Brandon Smock, Rohith Pesala, Robin Abraham
Dernière mise à jour: 2023-05-23 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.00716
Source PDF: https://arxiv.org/pdf/2303.00716
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.