Améliorer la reconnaissance de la structure des tableaux avec des ensembles de données alignés

Table des matières

L'Importance des Ensembles de Données Cohérents
Les Effets des Erreurs et Incohérences
Ensembles de Données Sélectionnés
Étapes de Traitement des Données
Entraînement du Modèle
Résultats des Corrections d'Ensemble de Données
Le Rôle de la Canonicalisation
Conclusion
Source originale

La reconnaissance de la structure des tableaux (TSR) est super importante pour comprendre les données dans les tableaux à travers différents documents. Pour aider les machines à mieux apprendre à partir de divers ensembles de données, il est crucial de s'assurer que ces ensembles sont clairs, cohérents et sans Erreurs. Cependant, beaucoup d'ensembles de référence existants peuvent avoir des erreurs et des incohérences qui peuvent impacter négativement la performance des modèles d'apprentissage machine conçus pour cette tâche.

Dans cet article, on va discuter de comment aligner les ensembles de référence peut améliorer la performance des modèles pour la TSR. On se concentre sur deux grands ensembles de données, FinTabNet et PubTables-1M, ainsi que sur l'ensemble de données ICDAR-2013, souvent utilisé pour l'évaluation.

L'Importance des Ensembles de Données Cohérents

Les annotations d'un ensemble de données doivent être cohérentes en elles-mêmes et avec d'autres ensembles de données. Même de petites erreurs dans un ensemble de données peuvent nuire à la façon dont les modèles s'entraînent et évaluent leur performance. Par exemple, un ensemble de référence peut sembler correct lorsqu'on le regarde seul, mais s'il est combiné avec d'autres qui ne sont pas alignés, ça peut mener à une mauvaise performance. Ce désalignement devient une autre source de bruit, affectant les modèles qui dépendent de ces ensembles de données.

Les Effets des Erreurs et Incohérences

Les erreurs peuvent varier d'erreurs directes dans l'Étiquetage à des incohérences subtiles entre les ensembles de données. Quand on parle de "désalignement", on veut dire que les ensembles de données pour la même tâche peuvent être étiquetés différemment, ce qui peut embrouiller les modèles et mener à des prédictions incorrectes. Cet article vise à explorer comment corriger ces erreurs peut entraîner un gros coup de pouce à la performance des modèles.

Ensembles de Données Sélectionnés

Pour notre étude, on a travaillé avec FinTabNet et PubTables-1M pour l'entraînement, et on a utilisé ICDAR-2013 comme référence d'évaluation. FinTabNet contient environ 113 000 tableaux de rapports financiers, tandis que PubTables-1M inclut près d'un million de tableaux de documents scientifiques. L'ensemble de données ICDAR-2013 a des tableaux provenant de différents documents, annotés manuellement par des experts, ce qui le rend utile pour évaluer la performance des modèles malgré sa plus petite taille.

Étapes de Traitement des Données

Pour aligner ces ensembles de données, on a dû corriger de nombreuses erreurs présentes dans les annotations originales. Chaque ensemble de données incluait des types spécifiques d'erreurs, comme des boîtes de délimitation incorrectes pour les cellules de tableau ou des incohérences dans l'étiquetage. Par exemple, certains tableaux incluaient des lignes vides inutiles, qui n'ont aucune raison logique d'exister et peuvent donc être considérées comme des erreurs.

On a aussi ajouté des étiquettes manquantes pour améliorer la qualité et l'utilisabilité des ensembles de données. Cela a impliqué de définir des boîtes de délimitation pour les lignes et les colonnes et d'étiqueter correctement les cellules d'en-tête. Chaque étape de correction des données a été effectuée avec soin pour améliorer la qualité globale des ensembles de données pour l'entraînement des modèles.

Entraînement du Modèle

On a utilisé le modèle Table Transformer (TATR) pour réaliser nos expériences. TATR est conçu pour encadrer la reconnaissance de la structure des tableaux comme un type de détection d'objets, en utilisant différentes classes pour identifier les composants du tableau. L'architecture du modèle est restée constante pendant que nous apportions des améliorations uniquement aux données utilisées pour l'entraînement.

Lors de nos expériences, on a entraîné le modèle avec les ensembles de données originaux et corrigés. Chaque modèle a été évalué après chaque session d'entraînement, ce qui nous a permis d'observer comment les améliorations des ensembles de données affectaient directement la Performance du Modèle.

Résultats des Corrections d'Ensemble de Données

Après avoir aligné les ensembles de données et corrigé les erreurs, on a vu des améliorations substantielles dans la performance du modèle. Par exemple, la précision de TATR sur le dataset ICDAR-2013 a fortement augmenté quand on l'a entraîné sur les ensembles de données corrigés de FinTabNet et PubTables-1M. Plus précisément, la précision est passée de 42% à 65% pour FinTabNet et de 65% à 75% pour PubTables-1M lors de l'évaluation sur ICDAR-2013.

On a également établi de nouveaux repères de performance, atteignant un score de relation d'adjacence dirigée (DAR) de 0,965 et une précision exacte de 81% sur l'ensemble de données ICDAR-2013 en combinant les deux ensembles d'entraînement. Ça montre que nettoyer les données peut mener à des résultats beaucoup meilleurs.

Le Rôle de la Canonicalisation

Une étape majeure dans notre approche a impliqué une technique appelée canonicalisation. Ce processus a aidé à standardiser les étiquettes entre différents ensembles de données. Nos expériences d'ablation ont montré que cette étape était particulièrement efficace pour améliorer la performance du modèle. En rendant les annotations plus cohérentes, on a réduit la confusion pour les modèles et amélioré leur précision globale.

Conclusion

Ce travail met en évidence l'importance d'avoir des ensembles de données alignés et corrigés pour les tâches de reconnaissance de structure de tableau. En se concentrant sur l'alignement des ensembles de référence, on a montré que la performance du modèle peut s'améliorer considérablement. Les résultats indiquent que même les modèles existants peuvent mieux performer quand ils sont entraînés sur des données plus propres et plus cohérentes.

Dans les travaux futurs, continuer à affiner les ensembles de données et explorer des méthodes pour améliorer encore l'entraînement des modèles sera crucial. On encourage les chercheurs à considérer la qualité des données qu'ils utilisent, car cela peut jouer un rôle significatif dans le succès de leurs modèles. En améliorant les repères pour la reconnaissance de la structure des tableaux, on ouvre la voie à de meilleurs outils capables de gérer efficacement les données dans les tableaux, ce qui profite à divers domaines y compris la finance, la science, et au-delà.

Améliorer la reconnaissance de la structure des tableaux avec des ensembles de données alignés

Aligner les ensembles de données améliore la performance des modèles dans les tâches de reconnaissance de structures de table.

L'Importance des Ensembles de Données Cohérents

Les Effets des Erreurs et Incohérences

Ensembles de Données Sélectionnés

Étapes de Traitement des Données

Entraînement du Modèle

Résultats des Corrections d'Ensemble de Données

Le Rôle de la Canonicalisation

Conclusion

Sujets référencés

Améliorer la reconnaissance de la structure des tableaux avec des ensembles de données alignés

Aligner les ensembles de données améliore la performance des modèles dans les tâches de reconnaissance de structures de table.

#L'Importance des Ensembles de Données Cohérents

#Les Effets des Erreurs et Incohérences

#Ensembles de Données Sélectionnés

#Étapes de Traitement des Données

#Entraînement du Modèle

#Résultats des Corrections d'Ensemble de Données

#Le Rôle de la Canonicalisation

#Conclusion

Sujets référencés

L'Importance des Ensembles de Données Cohérents

Les Effets des Erreurs et Incohérences

Ensembles de Données Sélectionnés

Étapes de Traitement des Données

Entraînement du Modèle

Résultats des Corrections d'Ensemble de Données

Le Rôle de la Canonicalisation

Conclusion