Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Intelligenza artificiale# Apprendimento automatico

Nuovo dataset migliora l'analisi dei manoscritti

U-DIADS-Bib semplifica la segmentazione dei manoscritti antichi grazie alla collaborazione tra esperti.

― 9 leggere min


Migliorare l'analisi deiMigliorare l'analisi deimanoscritti conU-DIADS-Bibtesti antichi.l'efficienza nella segmentazione deiIl dataset U-DIADS-Bib migliora
Indice

L'interesse per il patrimonio culturale è cresciuto nella comunità tech, portando a più collaborazioni tra informatici e studiosi delle humanities. Questo lavoro di squadra aiuta entrambi i lati. Gli studiosi possono analizzare più facilmente i documenti storici, mentre gli informatici imparano a lavorare con questi dati preziosi. Un compito importante per gli studiosi che studiano i manoscritti antichi è riconoscere la loro struttura, compreso come il contenuto è organizzato sulla pagina. Questo li aiuta a capire meglio i manoscritti e vedere le connessioni tra i vari testi.

Nel campo tech, questo compito è conosciuto come segmentazione delle pagine. Fa parte di un'area più ampia chiamata analisi del layout dei documenti, che include anche la suddivisione delle righe di testo e il rilevamento delle linee di base del testo. Per affrontare queste sfide in modo efficace, è necessario un grande quantitativo di dati sui manoscritti. In particolare, dati "Ground Truth" (GT) accurati sono vitali. GT si riferisce alle annotazioni corrette che mostrano come le pagine dovrebbero essere divise in diverse sezioni.

Avere GT precisi è necessario per addestrare modelli informatici e valutare le loro prestazioni. Questa capacità di misurare le prestazioni in modo affidabile permette di confrontare diversi approcci. Le mappe GT devono essere precise, il che può essere difficile. Ci sono due principali sfide nella loro creazione: ci vuole molto tempo e richiede conoscenze specifiche che solo gli esperti possiedono. Inoltre, i manoscritti antichi possono sembrare molto diversi l'uno dall'altro. Fattori come l'invecchiamento, differenze di layout, macchie d'inchiostro e problemi di scansione possono rendere difficile creare annotazioni affidabili. Pertanto, qualsiasi automazione utilizzata nella segmentazione potrebbe introdurre rumore, portando a risultati scadenti.

Ci sono molti set di dati disponibili per compiti di segmentazione delle pagine, ma spesso non sono all'altezza. Mancano di dettaglio, distinguendo solo tra testo e sfondo, oppure includono solo poche classi di layout. Inoltre, molti di questi set di dati si concentrano su un solo tipo di sistema di scrittura, come il latino o l'arabo, il che ne limita l'utilità.

Per affrontare questi problemi, è stato creato un nuovo set di dati chiamato U-DIADS-Bib. Questo set di dati fornisce una segmentazione dettagliata, accurata e priva di rumore dei documenti. È stato sviluppato grazie alla cooperazione tra esperti in visione artificiale e humanities. Gli studiosi hanno aiutato a definire quali aspetti dei manoscritti fossero essenziali per lo studio, mentre gli specialisti in visione artificiale hanno assicurato che i GT fossero coerenti e di alta qualità. Questa collaborazione ha prodotto sei classi chiare: sfondo, testo principale, paratestuale, decorazione, titolo e intestazioni dei capitoli.

I manoscritti selezionati includono quelli in alfabeto latino e in alfabeto consonantico siriaco. Questa varietà presenta una sfida a causa delle differenze nei loro sistemi di scrittura. Un problema significativo affrontato all'inizio di questo progetto è stato il processo lungo e noioso di segmentare manualmente le immagini per creare i GT.

Per ridurre il carico di lavoro per gli studiosi, è stato sviluppato un nuovo pipeline di segmentazione. Questo pipeline utilizza una combinazione di lavoro manuale e output di modelli di apprendimento automatico per creare una segmentazione approssimativa dell'intero set di dati. Gli esperti umani quindi affiniscono questi output per creare le mappe GT finali. Questo metodo si è rivelato molto più veloce che partire da zero.

Inoltre, per incoraggiare la ricerca che richiede meno esempi, è stata creata una versione few-shot del set di dati (U-DIADS-BibFS). Questa versione consente lo sviluppo di modelli che possano lavorare efficacemente con dati di addestramento limitati, che è spesso una necessità nel mondo reale.

Comprendere il set di dati U-DIADS-Bib

U-DIADS-Bib consiste in 200 immagini prese da quattro diversi manoscritti, con 50 immagini ciascuno. Gli esperti hanno selezionato questi manoscritti in base alla loro complessità di layout e agli elementi distintivi. I manoscritti includono principalmente Bibbie latine e siriache tra il VI e il XII secolo.

Le immagini di ciascun manoscritto sono state scelte per rappresentare varie classi di segmentazione concordate tra umanisti e informatici. Le immagini sono state estratte da una biblioteca digitale e offrono un'ampia gamma di layout storici.

Ecco una breve panoramica dei manoscritti selezionati:

  1. Latino 2 è conosciuto come la Seconda Bibbia di Carlo il Calvo. È stata creata tra l'871 e l'877 d.C. e consiste di 444 pagine di pergamena disposte in due colonne.

  2. Latino 14396 è stata prodotta tra il 1145 e il 1150 nell'Abbazia di Saint-Victor a Parigi. Contiene testi biblici da Esdra all'Apocalisse, composta da 170 pagine di pergamena con un layout a due colonne.

  3. Latino 16746 è stata creata tra il 1170 e il 1190 nell'Abbazia di Saint Bertin. Questo manoscritto, che contiene il Nuovo Testamento, ha anch'esso un formato a due colonne e consiste di 176 pagine di pergamena.

  4. Siriaco 341 proverrebbe probabilmente dal Monastero di Baquqa in Iraq ed è stato prodotto tra il VI e il VII secolo d.C. Contiene l'Antico Testamento nella versione siriaca Peshitta e ha un complesso layout a tre colonne, composto da 256 pagine.

Il set di dati presenta sei classi di segmentazione, che includono:

  • Testo principale: Si riferisce all'area di scrittura principale e include segni di punteggiatura. Il layout può essere strutturato in una o due colonne.

  • Decorazione: Questa classe copre vari elementi decorativi, comprese miniature, iniziali decorate e elementi grafici più semplici.

  • Titolo: Si riferisce alle frasi iniziali e finali indicate da colori di inchiostro distintivi o stili unici.

  • Intestazioni dei capitoli: Queste intestazioni più piccole aiutano a localizzare capitoli specifici nel testo.

  • Paratestuale: Questa classe include varie annotazioni al di fuori del testo principale, come glosse, correzioni e altre note.

  • Sfondo: Rappresenta lo sfondo della pagina e eventuali contorni visibili nelle immagini scansionate.

Queste categorie sono state scelte in base a discussioni con esperti delle humanities, che hanno fornito spunti su ciò che era rilevante per lo studio dei manoscritti. Questa classificazione aiuta a evitare interpretazioni rigide e apre la porta a applicazioni più ampie in diversi campi di studio.

Processo di creazione del Ground Truth

La creazione del set di dati U-DIADS-Bib ha comportato uno sforzo collaborativo tra informatici e umanisti. L'annotazione manuale è fondamentale per produrre GT accurati, ma è anche un lavoro che richiede tempo, specialmente quando si tratta di elementi di layout complessi nei manoscritti.

Per ottenere annotazioni di qualità gestendo il tempo in modo efficace, è stato sviluppato un pipeline di segmentazione unico. Il processo inizia selezionando 50 immagini da ciascun manoscritto che rappresentano tutte le classi di segmentazione. Un sottoinsieme di 10 immagini viene quindi elaborato utilizzando un metodo di soglia per fornire una versione binarizzata preliminare per gli annotatori umani.

Una volta pronte le immagini binarizzate, gli esperti segmentano manualmente queste immagini a livello di pixel. Questo lavoro dettagliato stabilisce una base per addestrare modelli di apprendimento automatico. Questi modelli produrranno successivamente una segmentazione approssimativa per l'intero set di dati.

Dopo aver addestrato il modello, viene eseguito sull'intero set di dati per creare annotazioni. Una volta generati questi output, gli esperti li affinano e correggono meticolosamente, assicurandosi che siano allineati con le immagini originali. Sebbene il processo utilizzi il supporto della macchina, le decisioni finali vengono sempre prese da esperti umani, evitando possibili pregiudizi o errori.

Il set di dati contiene immagini di alta qualità memorizzate in formato JPEG, con immagini GT corrispondenti in formato PNG. Le annotazioni sono codificate a colori per rappresentare diverse classi, garantendo chiarezza. Il set di dati finale include un totale di 50 immagini originali per ciascun manoscritto, insieme ai rispettivi dati GT.

Valutazione delle prestazioni

Per analizzare le prestazioni del sistema, è stata testata una serie di modelli di deep learning popolari sul set di dati. I modelli selezionati includevano FCN, Lite Reduced Atrous Spatial Pyramid Pooling (LRASPP), DeepLabV3, DeepLabV3+ e Pyramid Scene Parsing Network (PSPNet).

Durante i test, è stata calcolata una media ponderata e una media macro di vari parametri di prestazione, come precisione, richiamo, intersezione su unione (IoU) e F1-Score. Questi parametri misurano quanto bene i modelli possono identificare accuratamente le diverse aree semantiche.

I modelli sono stati addestrati con una configurazione che includeva l'ottimizzatore Adam, un tasso di apprendimento e un decadimento del peso. L'addestramento è stato monitorato, con un meccanismo di interruzione anticipata se le prestazioni non miglioravano dopo un numero specificato di epoche.

I risultati di questo benchmarking hanno mostrato che i modelli si sono comportati in modo diverso tra i vari manoscritti. Ogni manoscritto presentava sfide uniche riguardo alle classi di segmentazione che erano più difficili da identificare. In particolare, il modello DeepLabV3+ ha mostrato le migliori prestazioni complessive, indicando la sua efficacia nel utilizzare sia informazioni globali che locali.

Approccio Few-Shot Learning

In aggiunta al set di dati principale, è stata creata una versione few-shot (U-DIADS-BibFS) per enfatizzare l'importanza di addestrare con dati limitati. Questa configurazione consisteva di 43 immagini per manoscritto, con sole tre immagini dedicate all'addestramento.

I risultati per l'impostazione few-shot sono stati analizzati in modo simile a quelli del set di dati completo, utilizzando medie ponderate e macro. Il modello attualmente all'avanguardia ha performato bene su vari parametri. Tuttavia, le prestazioni sono generalmente diminuite rispetto al set di dati completo, con cali evidenti nella precisione per diverse classi di manoscritti.

L'impostazione few-shot mette in evidenza le sfide affrontate quando si lavora con dati minimi. Tuttavia, dimostra anche il potenziale per sviluppare metodi efficaci che possono funzionare bene in queste condizioni.

Conclusione e direzioni future

U-DIADS-Bib rappresenta un notevole avanzamento nel campo dell'analisi del layout dei documenti, affrontando le carenze precedenti riscontrate nei set di dati esistenti. Offre un approccio dettagliato e accurato che consente lo sviluppo di sistemi affidabili per un uso pratico.

La combinazione di annotazioni manuali con processi automatizzati ha alleviato il carico per gli esperti umani, consentendo loro di produrre grandi quantità di dati di alta qualità in modo efficiente. Nonostante i progressi compiuti, rimangono sfide nell'identificare certe classi di layout, in particolare in contesti con meno dati.

Il lavoro futuro si concentrerà sull'espansione del set di dati per includere vari tipi e caratteristiche di documenti, il che può promuovere ulteriori ricerche e innovazione. L'obiettivo è perfezionare la classificazione dei paratestuali e introdurre nuovi compiti di segmentazione per creare una risorsa più completa per l'analisi del layout dei documenti.

Inoltre, esplorare tecniche mirate a migliorare le prestazioni della segmentazione e ridurre le dimensioni richieste per i campioni di addestramento sarà un focus chiave. Questo include l'indagine di moduli specifici orientati alle caratteristiche e l'ottimizzazione delle strutture dei modelli. L'obiettivo è promuovere lo sviluppo di metodi che possano adattarsi bene a una varietà di manoscritti storici e moderni.

Fonte originale

Titolo: U-DIADS-Bib: a full and few-shot pixel-precise dataset for document layout analysis of ancient manuscripts

Estratto: Document Layout Analysis, which is the task of identifying different semantic regions inside of a document page, is a subject of great interest for both computer scientists and humanities scholars as it represents a fundamental step towards further analysis tasks for the former and a powerful tool to improve and facilitate the study of the documents for the latter. However, many of the works currently present in the literature, especially when it comes to the available datasets, fail to meet the needs of both worlds and, in particular, tend to lean towards the needs and common practices of the computer science side, leading to resources that are not representative of the humanities real needs. For this reason, the present paper introduces U-DIADS-Bib, a novel, pixel-precise, non-overlapping and noiseless document layout analysis dataset developed in close collaboration between specialists in the fields of computer vision and humanities. Furthermore, we propose a novel, computer-aided, segmentation pipeline in order to alleviate the burden represented by the time-consuming process of manual annotation, necessary for the generation of the ground truth segmentation maps. Finally, we present a standardized few-shot version of the dataset (U-DIADS-BibFS), with the aim of encouraging the development of models and solutions able to address this task with as few samples as possible, which would allow for more effective use in a real-world scenario, where collecting a large number of segmentations is not always feasible.

Autori: Silvia Zottin, Axel De Nardin, Emanuela Colombi, Claudio Piciarelli, Filippo Pavan, Gian Luca Foresti

Ultimo aggiornamento: 2024-01-16 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2401.08425

Fonte PDF: https://arxiv.org/pdf/2401.08425

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili