Sci Simple

New Science Research Articles Everyday

# Informatique # Vision par ordinateur et reconnaissance des formes # Intelligence artificielle

Débloquer des secrets anciens : os d'oracle et IA

Découvrez comment l'IA transforme l'étude des os d'oracle chinois anciens.

Zijian Chen, Tingzhu Chen, Wenjun Zhang, Guangtao Zhai

― 8 min lire


L'IA rencontre les os L'IA rencontre les os oraculaires anciens. anciennes avec la technologie AI. Révolutionner l'étude des inscriptions
Table des matières

Les os d'oracle sont des artefacts anciens utilisés par la dynastie Shang en Chine pour la divination et les rituels entre 1400 et 1100 avant J.-C. Ces os portent des inscriptions qui donnent des aperçus précieux sur les pensées, la langue et la culture des sociétés passées. Cependant, interpréter ces inscriptions, c'est pas simple et ça demande souvent des compétences d'expert.

C'est là qu'intervient OBI-Bench. C'est un benchmark tout nouveau, conçu pour évaluer la capacité des grands modèles multimodaux (LMMs) à gérer des tâches liées aux inscriptions sur os d'oracle (OBI). L'idée, c'est de voir si ces modèles avancés peuvent traiter et comprendre des écritures anciennes, aidant les chercheurs à Déchiffrer les secrets cachés dans ces artefacts.

Qu'est-ce que OBI-Bench ?

OBI-Bench, c'est une collection de 5,523 images d'inscriptions sur os d'oracle tirées de diverses sources. Ces images ne sont pas juste des jolies photos ; elles représentent cinq tâches clés essentielles pour comprendre les écritures sur os d'oracle. Ces tâches incluent :

  1. Reconnaissance : Trouver des caractères spécifiques dans les images.
  2. Réassemblage : Remettre des morceaux de texte cassés ensemble.
  3. Classification : Trier les caractères dans leurs catégories correctes en fonction de leur signification.
  4. Recherche : Chercher des images pertinentes en fonction d'une requête.
  5. Décodage : Comprendre ce que signifient les caractères dans un contexte historique.

Contrairement à d'autres benchmarks, OBI-Bench est spécifiquement conçu pour relever les défis posés par les inscriptions sur os d'oracle, poussant les LMM à performer à des niveaux comparables à ceux des experts humains.

L'importance des os d'oracle

Les os d'oracle sont comme des capsules temporelles qui révèlent les croyances et pratiques de la dynastie Shang. Ces inscriptions ne sont pas juste des gribouillages ; elles détiennent les clés pour comprendre la civilisation chinoise ancienne. Aussi excitant que ça puisse paraître, interpréter ces inscriptions vient avec son propre lot de défis.

Au fil des siècles, beaucoup d'os se sont détériorés. Ils sont devenus fragmentés et certains sont endommagés, ce qui rend difficile la reconnaissance ou l'interprétation des caractères. De plus, la grande variété de styles utilisés dans ces inscriptions peut embrouiller même les chercheurs les plus expérimentés.

Les défis

Lorsqu'ils essaient de travailler avec des inscriptions sur os d'oracle, les chercheurs rencontrent plusieurs obstacles :

  1. Érosion et dommages : Après avoir été enterrés pendant des milliers d'années, beaucoup d'os d'oracle se sont érodés et fragmentés. Ça complique l'identification des caractères.
  2. Réassemblage des fragments : Remettre ensemble des morceaux de texte cassés est essentiel mais peut être long et nécessite des connaissances spécialisées.
  3. Variation stylistique : Les différents styles d'écriture peuvent rendre difficile la reconnaissance et la classification des caractères.
  4. Difficultés de recherche : Créer de grandes bases de données de ces inscriptions est compliqué à cause de la nécessité de distinguer entre des caractères similaires.
  5. Problèmes de traduction : Beaucoup d'os d'oracle ont des caractères qui ne correspondent pas directement au chinois moderne, rendant l'interprétation difficile.

Les chercheurs ont utilisé des méthodes traditionnelles pour faire face à ces problèmes. Cependant, avec l'émergence des LMM qui ont de fortes capacités visuelles et de raisonnement, il y a un potentiel pour améliorer considérablement le processus.

Entrez les LMM

Les grands modèles multimodaux combinent perception visuelle et compréhension du langage, les rendant idéaux pour s'attaquer à des tâches complexes comme celles qu'on voit dans la recherche OBI. La question principale est : ces modèles peuvent-ils aider à améliorer l'étude des inscriptions sur os d'oracle ?

Pour répondre à cela, les chercheurs ont évalué 23 LMM populaires, qu'ils soient propriétaires ou open-source, sur différentes tâches. Les résultats étaient fascinants, montrant que même si les LMM ont des capacités impressionnantes, ils ont encore de la marge pour s'améliorer en matière de perception fine et d'interprétation de ces écritures anciennes.

Les cinq tâches clés dans OBI-Bench

Reconnaissance

Cette tâche implique de localiser des caractères d'os d'oracle denses dans divers contextes, comme des os originaux ou des frottis. Les modèles sont évalués sur leur précision à identifier les caractères dans les images.

Réassemblage

Le réassemblage, c'est comme assembler un puzzle de morceaux de texte cassés. Cette tâche évalue à quel point les modèles peuvent rassembler ces morceaux fracturés pour former un texte cohérent.

Classification

Chaque caractère des inscriptions sur les os d'oracle doit être trié selon sa signification correcte. Cette tâche vérifie à quel point les modèles sont fiables pour catégoriser les caractères avec précision.

Recherche

Quand on donne une requête, à quel point le modèle peut-il trouver les bonnes images dans une base de données ? Cette tâche mesure l'efficacité du modèle pour récupérer des résultats pertinents.

Décodage

L'objectif ultime de la compréhension des os d'oracle est d'interpréter leur signification. Cette tâche évalue à quel point les modèles peuvent donner des aperçus sur la signification historique et culturelle des inscriptions.

Évaluation des LMM

Lors de l'évaluation, on a constaté que même les modèles les plus avancés avaient parfois des difficultés avec la reconnaissance fine, mais ils performaient raisonnablement bien dans les tâches de décodage. Certains modèles pouvaient interpréter des caractères à un niveau comparable à des humains non formés, indiquant un potentiel pour un développement futur dans ce domaine.

Conclusions clés

  1. Beaucoup de potentiel d'amélioration : Les LMM ont encore un travail significatif à faire dans les tâches nécessitant une reconnaissance précise et un réassemblage des fragments.
  2. Sensibilité à l'information locale : De nombreux modèles n'ont pas réussi à détecter les caractéristiques subtiles nécessaires pour les tâches de reconnaissance et de réassemblage.
  3. Bonnes capacités de classification et de recherche : Les LMM ont montré des résultats prometteurs dans la classification des caractères et la recherche d'images pertinentes, en particulier pour des ensembles de données plus clairs.
  4. Compétences de décodage remarquables : Certains modèles ont performé étonnamment bien dans les tâches de décodage, suggérant qu'ils peuvent offrir de nouvelles interprétations des caractères non déchiffrés.

Le processus : De la collecte de données à l'évaluation

Pour créer OBI-Bench, les chercheurs ont collecté des images à partir de multiples sources, assurant la diversité des données. Ils ont impliqué des experts du domaine pour annoter les images et affiner les ensembles de données. L'évaluation a consisté à utiliser différents types de requêtes, comme "Qu'est-ce qui est dans cette image ?" ou “Combien de caractères peux-tu voir ?” pour évaluer la compréhension des modèles des tâches.

Développement des ensembles de données

Deux ensembles de données spécifiques ont été créés — l'ensemble de données Original Oracle Bone Recognition (O2BR) et l'ensemble de données OBI-rejoin, qui servent de ressources importantes pour former et tester les LMM dans le contexte des inscriptions sur os d'oracle.

L'avenir de la recherche OBI

Les résultats d'OBI-Bench suggèrent que les LMM peuvent être des outils précieux dans l'étude des os d'oracle. Ils présentent des possibilités excitantes pour rationaliser le processus de recherche, réduisant la lourde charge de travail manuelle généralement associée au déchiffrage de ces écritures anciennes.

Directions potentielles

  1. Amélioration des techniques de prétraitement : En développant des méthodes pour améliorer la qualité des images, les chercheurs peuvent booster les performances des LMM.
  2. Affinage pour des ensembles de données spécifiques : Adapter les modèles pour apprendre des caractéristiques uniques des os d'oracle peut améliorer leurs capacités interprétatives.
  3. Systèmes interactifs : Créer des systèmes où les utilisateurs peuvent poser des questions sur les os d'oracle en langage naturel rendra le processus de recherche plus accessible.

Conclusion

L'exploration des inscriptions sur os d'oracle grâce aux LMM promet de faire avancer notre compréhension des civilisations anciennes. Même s'il reste des obstacles à surmonter, l'utilisation de la technologie moderne dans ce domaine pourrait mener à des découvertes passionnantes et à de meilleures perspectives sur la riche histoire de l'humanité.

Alors, la prochaine fois que tu penses à des écritures anciennes, souviens-toi qu'avec un peu de technologie et une touche d'innovation, les secrets des os d'oracle pourraient bientôt être à notre portée — juste en attente d'être déchiffrés !

Source originale

Titre: OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones?

Résumé: We introduce OBI-Bench, a holistic benchmark crafted to systematically evaluate large multi-modal models (LMMs) on whole-process oracle bone inscriptions (OBI) processing tasks demanding expert-level domain knowledge and deliberate cognition. OBI-Bench includes 5,523 meticulously collected diverse-sourced images, covering five key domain problems: recognition, rejoining, classification, retrieval, and deciphering. These images span centuries of archaeological findings and years of research by front-line scholars, comprising multi-stage font appearances from excavation to synthesis, such as original oracle bone, inked rubbings, oracle bone fragments, cropped single character, and handprinted character. Unlike existing benchmarks, OBI-Bench focuses on advanced visual perception and reasoning with OBI-specific knowledge, challenging LMMs to perform tasks akin to those faced by experts. The evaluation of 6 proprietary LMMs as well as 17 open-source LMMs highlights the substantial challenges and demands posed by OBI-Bench. Even the latest versions of GPT-4o, Gemini 1.5 Pro, and Qwen-VL-Max are still far from public-level humans in some fine-grained perception tasks. However, they perform at a level comparable to untrained humans in deciphering task, indicating remarkable capabilities in offering new interpretative perspectives and generating creative guesses. We hope OBI-Bench can facilitate the community to develop domain-specific multi-modal foundation models towards ancient language research and delve deeper to discover and enhance these untapped potentials of LMMs.

Auteurs: Zijian Chen, Tingzhu Chen, Wenjun Zhang, Guangtao Zhai

Dernière mise à jour: 2024-12-02 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2412.01175

Source PDF: https://arxiv.org/pdf/2412.01175

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires

Physique quantique Les boosts quantiques améliorent l'apprentissage fédéré pour la protection des données

De nouvelles méthodes combinent l'informatique quantique et l'apprentissage fédéré pour améliorer la vie privée des données.

Siddhant Dutta, Nouhaila Innan, Sadok Ben Yahia

― 7 min lire