Sci Simple

New Science Research Articles Everyday

# Informatica # Visione artificiale e riconoscimento di modelli # Intelligenza artificiale

Svelare Segreti Antichi: Ossa Oracolari e AI

Scopri come l'IA sta cambiando lo studio delle antiche ossa oracolari cinesi.

Zijian Chen, Tingzhu Chen, Wenjun Zhang, Guangtao Zhai

― 6 leggere min


L'AI incontra le antiche L'AI incontra le antiche ossa oracolari AI. iscrizioni antiche con la tecnologia Rivoluzionare lo studio delle
Indice

Le ossa oracolari sono antichi reperti usati dalla dinastia Shang in Cina per la divinazione e rituali dal 1400 a.C. all'1100 a.C. Queste ossa portano iscrizioni che offrono preziosi spunti sui pensieri, la lingua e la cultura delle società passate. Tuttavia, interpretare queste iscrizioni è un compito complesso e spesso richiede conoscenze esperte.

È qui che entra in gioco OBI-Bench. È un nuovo benchmark creato per valutare la capacità dei grandi modelli multi-modali (LMM) di gestire compiti legati alle iscrizioni delle ossa oracolari (OBI). L'obiettivo è vedere se questi modelli avanzati possono elaborare e comprendere le scritture antiche, aiutando gli studiosi a svelare i segreti nascosti in questi reperti.

Cos'è OBI-Bench?

OBI-Bench è una raccolta di 5.523 immagini di iscrizioni su ossa oracolari provenienti da varie fonti. Queste immagini non sono solo belle da vedere; rappresentano cinque compiti chiave essenziali per comprendere le iscrizioni delle ossa oracolari. I compiti includono:

  1. Riconoscimento: Trovare caratteri specifici nelle immagini.
  2. Rimontaggio: Riunire pezzi di testo rotti.
  3. Classificazione: Ordinare i caratteri nelle loro categorie corrette in base al significato.
  4. Recupero: Cercare immagini rilevanti in base a una query.
  5. Decifrazione: Capire cosa significano i caratteri in un contesto storico.

A differenza di altri benchmark, OBI-Bench è specificamente progettato per le sfide presentate dalle iscrizioni delle ossa oracolari, spingendo i LMM a performare a livelli pari a quelli degli esperti umani.

L'importanza delle ossa oracolari

Le ossa oracolari sono come capsule del tempo che rivelano le credenze e le pratiche della dinastia Shang. Queste iscrizioni non sono solo scarabocchi; contengono le chiavi per comprendere la civiltà cinese antica. Anche se sembra entusiasmante, interpretare queste iscrizioni comporta le sue sfide.

Nel corso dei secoli, molte ossa si sono deteriorate. Sono diventate frammentate e alcune sono danneggiate, rendendo difficile riconoscere o interpretare i caratteri. Inoltre, la vasta gamma di stili usati in queste iscrizioni può confondere anche i più esperti studiosi.

Le sfide

Quando si cerca di lavorare con le iscrizioni delle ossa oracolari, i ricercatori devono affrontare diversi ostacoli:

  1. Erosione e danni: Dopo essere state sepolte per migliaia di anni, molte ossa oracolari si sono erose e frammentate. Questo rende difficile identificare i caratteri.
  2. Rimontaggio dei frammenti: Mettere insieme pezzi di testo rotti è essenziale ma può richiedere molto tempo e conoscenze specifiche.
  3. Variazione stilistica: I diversi stili di scrittura possono rendere difficile riconoscere e classificare i caratteri.
  4. Difficoltà di recupero: Creare grandi database di queste iscrizioni è complicato a causa della necessità di distinguere tra caratteri simili.
  5. Problemi di traduzione: Molte ossa oracolari hanno caratteri che non corrispondono direttamente al cinese moderno, rendendo l'interpretazione complicata.

I ricercatori hanno utilizzato metodi tradizionali per affrontare questi problemi. Tuttavia, con l'emergere dei LMM che hanno forti capacità visive e di ragionamento, c'è il potenziale per migliorare significativamente il processo.

Entra in gioco LMM

I grandi modelli multi-modali combinano percezione visiva e comprensione del linguaggio, rendendoli ideali per affrontare compiti complessi come quelli visti nella ricerca OBI. La domanda principale è: possono questi modelli aiutare a migliorare lo studio delle iscrizioni delle ossa oracolari?

Per rispondere a questo, i ricercatori hanno valutato 23 LMM popolari, sia proprietari che open-source, su diversi compiti. I risultati sono stati affascinanti, mostrando che mentre i LMM hanno capacità impressionanti, hanno ancora margini di miglioramento quando si tratta di percezione fine e interpretazione di queste scritture antiche.

I cinque compiti chiave in OBI-Bench

Riconoscimento

Questo compito coinvolge il localizzare caratteri densi delle ossa oracolari in vari contesti, come ossa originali o impronte. I modelli vengono valutati su quanto accuratamente possono identificare i caratteri nelle immagini.

Rimontaggio

Il rimontaggio è come mettere insieme un puzzle di frammenti di testo rotti. Questo compito valuta quanto bene i modelli possono cucire insieme questi pezzi fratturati per formare un testo coerente.

Classificazione

Ogni carattere delle iscrizioni oracolari deve essere ordinato nel suo significato corretto. Questo compito controlla quanto siano affidabili i modelli nel categorizzare accuratamente i caratteri.

Recupero

Quando viene data una query, quanto bene può il modello trovare le immagini giuste in un database? Questo compito misura l'efficacia del modello nel recuperare risultati pertinenti.

Decifrazione

L'obiettivo finale di comprendere le ossa oracolari è interpretarne i significati. Questo compito valuta quanto bene i modelli possono fornire spunti sul significato storico e culturale delle iscrizioni.

Valutazione dei LMM

Durante la valutazione, è emerso che anche i modelli più avanzati a volte faticano con il riconoscimento fine, ma si sono comportati ragionevolmente bene nei compiti di decifrazione. Alcuni modelli sono riusciti a interpretare i caratteri a un livello paragonabile a quello di umani non addestrati, indicando un potenziale per lo sviluppo futuro in quest'area.

Risultati chiave

  1. Tanto lavoro da fare: I LMM hanno ancora molto da fare nei compiti che richiedono un riconoscimento preciso e il rimontaggio di frammenti.
  2. Sensibilità alle informazioni locali: Molti modelli non sono riusciti a rilevare le caratteristiche sottili necessarie per i compiti di riconoscimento e rimontaggio.
  3. Forti capacità di classificazione e recupero: I LMM hanno mostrato risultati promettenti nella classificazione dei caratteri e nel recupero di immagini pertinenti, in particolare per dataset più chiari.
  4. Abilità di decifrazione notevoli: Alcuni modelli si sono comportati sorprendentemente bene nei compiti di decifrazione, suggerendo che possono offrire nuove interpretazioni di caratteri non decifrati.

Il processo: dalla raccolta dati alla valutazione

Per creare OBI-Bench, i ricercatori hanno raccolto immagini da più fonti, garantendo diversità nei dati. Hanno coinvolto esperti del settore per annotare le immagini e affinare i dataset. La valutazione ha coinvolto l'utilizzo di diversi tipi di query, come "Cosa c'è in questa immagine?" o "Quanti caratteri puoi vedere?" per valutare la comprensione del modello riguardo ai compiti.

Sviluppo dei dataset

Sono stati creati due dataset specifici: il dataset Original Oracle Bone Recognition (O2BR) e il dataset OBI-rejoin, che servono come importanti risorse per addestrare e testare i LMM nel contesto delle iscrizioni delle ossa oracolari.

Il futuro della ricerca OBI

I risultati di OBI-Bench suggeriscono che i LMM possono essere strumenti preziosi nello studio delle ossa oracolari. Offrono possibilità entusiasmanti per snellire il processo di ricerca, riducendo il pesante carico di lavoro manuale tipicamente associato alla decifrazione di queste scritture antiche.

Direzioni potenziali

  1. Tecniche di preprocessing migliorate: Sviluppando metodi per migliorare la qualità delle immagini, i ricercatori potrebbero aumentare le prestazioni dei LMM.
  2. Affinamento per dataset specifici: Adattare i modelli per apprendere dalle caratteristiche uniche delle ossa oracolari può migliorare le loro capacità interpretative.
  3. Sistemi interattivi: Creare sistemi dove gli utenti possono fare domande sulle ossa oracolari in linguaggio naturale renderà il processo di ricerca più accessibile.

Conclusione

L'esplorazione delle iscrizioni delle ossa oracolari attraverso i LMM ha grandi promesse per avanzare la nostra comprensione delle civiltà antiche. Anche se ci sono ancora ostacoli da superare, l'uso della tecnologia moderna in questo campo potrebbe portare a scoperte entusiasmanti e a una maggiore comprensione del ricco arazzo della storia umana.

Quindi, la prossima volta che pensi a scritture antiche, ricorda che con un pizzico di tecnologia e un tocco di innovazione, i segreti delle ossa oracolari potrebbero presto essere alla nostra portata—pronti per essere decifrati!

Fonte originale

Titolo: OBI-Bench: Can LMMs Aid in Study of Ancient Script on Oracle Bones?

Estratto: We introduce OBI-Bench, a holistic benchmark crafted to systematically evaluate large multi-modal models (LMMs) on whole-process oracle bone inscriptions (OBI) processing tasks demanding expert-level domain knowledge and deliberate cognition. OBI-Bench includes 5,523 meticulously collected diverse-sourced images, covering five key domain problems: recognition, rejoining, classification, retrieval, and deciphering. These images span centuries of archaeological findings and years of research by front-line scholars, comprising multi-stage font appearances from excavation to synthesis, such as original oracle bone, inked rubbings, oracle bone fragments, cropped single character, and handprinted character. Unlike existing benchmarks, OBI-Bench focuses on advanced visual perception and reasoning with OBI-specific knowledge, challenging LMMs to perform tasks akin to those faced by experts. The evaluation of 6 proprietary LMMs as well as 17 open-source LMMs highlights the substantial challenges and demands posed by OBI-Bench. Even the latest versions of GPT-4o, Gemini 1.5 Pro, and Qwen-VL-Max are still far from public-level humans in some fine-grained perception tasks. However, they perform at a level comparable to untrained humans in deciphering task, indicating remarkable capabilities in offering new interpretative perspectives and generating creative guesses. We hope OBI-Bench can facilitate the community to develop domain-specific multi-modal foundation models towards ancient language research and delve deeper to discover and enhance these untapped potentials of LMMs.

Autori: Zijian Chen, Tingzhu Chen, Wenjun Zhang, Guangtao Zhai

Ultimo aggiornamento: 2024-12-02 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2412.01175

Fonte PDF: https://arxiv.org/pdf/2412.01175

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili