Simple Science

Scienza all'avanguardia spiegata semplicemente

# Statistica# Visione artificiale e riconoscimento di modelli# Calcolo e linguaggio# Computer e società# Apprendimento automatico# Apprendimento automatico

Digitalizzare il Latino Medievale: Un Progetto di Riconoscimento della Scrittura

Questo progetto migliora il riconoscimento dei lemmi in latino medievale da schede scritte a mano.

― 6 leggere min


Riconoscimento dellaRiconoscimento dellascrittura in latinomedievaleavanzate.testi storici tramite tecnicheMigliorare la digitalizzazione dei
Indice

L'Accademia Bavarese delle Scienze e delle Lettere sta digitalizzando il suo Dizionario di Latino Medievale. Questo dizionario, che si riferisce a una lingua a basso risorso, ha molte schede che contengono parole scritte a mano, conosciute come Lemmi. Una parte fondamentale di questo sforzo di digitalizzazione è riconoscere le parole scritte a mano su queste schede. Per farlo, abbiamo sviluppato un sistema completo progettato specificamente per il Dizionario di Latino Medievale, concentrandoci sul trovare, estrarre e trascrivere i lemmi dalle schede.

La Sfida del Riconoscimento della Scrittura a Mano

Riconoscere il testo scritto a mano presenta sfide uniche rispetto al testo stampato. Le variazioni negli stili di scrittura, la presenza di rumore nelle immagini e le risorse limitate disponibili per il Latino Medievale aumentano la difficoltà di migliorare l'accuratezza del riconoscimento. Per affrontare questo problema, ci siamo concentrati sulla creazione di un sistema affidabile per identificare e leggere i lemmi dalle schede.

Struttura del Progetto

Il nostro progetto consiste in diverse parti chiave:

  1. Preparazione dei Dati: Abbiamo raccolto circa 200.000 schede scansionate e le abbiamo annotate con i loro lemmi corrispondenti. I lemmi si trovano di solito nell'angolo in alto a sinistra di ciascuna scheda.

  2. Sviluppo di un Sistema di Rilevamento: Abbiamo costruito un modello per trovare la posizione dei lemmi sulle schede. Poiché i lemmi non sono etichettati con le loro posizioni precise, abbiamo affrontato questo come un problema di rilevamento di oggetti.

  3. Riconoscimento del Testo Scritto a Mano (HTR): Dopo aver localizzato i lemmi, abbiamo usato vari modelli per riconoscere il testo. Abbiamo sperimentato con diverse configurazioni per vedere quali combinazioni di modelli funzionassero meglio.

  4. Aumento dei Dati: Per migliorare le prestazioni del modello, abbiamo utilizzato tecniche per aumentare la varietà degli esempi di addestramento senza alterarne il significato.

  5. Valutazione: Abbiamo misurato l'accuratezza del nostro sistema controllando quanto bene riuscisse a leggere i lemmi rispetto alle etichette reali.

Raccolta e Annotazione dei Dati

Il primo passo è stato raccogliere e annotare i dati. Abbiamo scannerizzato le schede e registrato i lemmi scritti su di esse. Le schede contengono circa 1,3 milioni di punti di riferimento, con ciascuna scheda ordinata alfabeticamente in base alla prima lettera del lemma. Per migliorare il nostro set di dati, abbiamo fatto in modo che ogni lemma fosse rappresentato accuratamente nei dati di addestramento.

Il Sistema di Rilevamento

Per identificare dove si trovano i lemmi sulle schede, ci siamo trovati di fronte alla sfida di non avere etichette precise per le loro posizioni. Pertanto, abbiamo trasformato il compito in un problema di ancoraggio visivo. Abbiamo fornito al nostro modello immagini e descrizioni dei lemmi, aspettandoci che restituisse le posizioni delle parole.

Abbiamo utilizzato un modello di rilevamento di oggetti per questo compito. Tuttavia, poiché alcune schede potrebbero avere più istanze di testo o nessuna, abbiamo creato regole per determinare il miglior box di delimitazione per ogni lemma. Abbiamo assicurato che il box selezionato fosse il più grande e posizionato nell'angolo in alto a sinistra, dove di solito appaiono i lemmi.

Riconoscimento del Testo Scritto a Mano (HTR)

La fase successiva ha coinvolto il riconoscimento del testo estratto dalle schede. A questo scopo, abbiamo utilizzato modelli avanzati capaci di elaborare le immagini dei lemmi scritti a mano. Abbiamo sperimentato con diverse architetture e scoperto che l'uso di un modello transformer ha prodotto risultati promettenti.

Per addestrare il nostro modello, abbiamo diviso i dati in un set di addestramento e un set di test. Abbiamo utilizzato tecniche di addestramento standard e poi applicato un aumento dei dati per migliorare ulteriormente le prestazioni del modello. L'obiettivo era aiutare il modello a generalizzare meglio a variazioni nella scrittura a mano e nella qualità delle immagini.

Tecniche di Aumento dei Dati

L'aumento dei dati gioca un ruolo cruciale nel deep learning. Applicando varie modifiche alle immagini originali, miglioriamo la diversità del nostro set di dati di addestramento. Alcune delle tecniche che abbiamo implementato includono:

  • Rotazione Casuale: Abbiamo ruotato le immagini entro un intervallo specifico per simulare angoli diversi.

  • Regolazioni di Sfocatura e Nitidezza: Abbiamo alterato la nitidezza e la sfocatura delle immagini per rappresentare meglio le variazioni del mondo reale.

  • Modifiche ai Colori: Regolazioni su luminosità, contrasto, saturazione e tonalità sono state applicate in modo casuale.

Addestrando il modello su dati originali e aumentati, gli abbiamo fornito una comprensione più completa dei diversi modi in cui potrebbero apparire i lemmi.

Addestramento e Valutazione

Per valutare le prestazioni del nostro modello, abbiamo utilizzato una metrica chiamata Tasso di Errore dei Caratteri (CER). Questa metrica ci aiuta a capire quanto accuratamente il nostro modello legge il testo scritto a mano. Valori CER più bassi indicano prestazioni migliori.

Nei nostri esperimenti, abbiamo confrontato diverse architetture e configurazioni del modello. Abbiamo scoperto che l'uso di una combinazione specifica di modelli ha portato ai migliori risultati, con un CER di 0.015, superando altri sistemi commerciali in termini di accuratezza.

Confronto con i Sistemi Commerciali

Per convalidare le prestazioni del nostro modello, lo abbiamo confrontato con sistemi commerciali esistenti, come Google Cloud Vision (GCV). Anche dopo aver apportato modifiche per tener conto di caratteri aggiuntivi previsti da GCV, il nostro modello ha dimostrato una superiore accuratezza di lettura per i lemmi.

Approfondimenti dai Dati

Abbiamo analizzato la distribuzione dei lemmi in base alle loro prime lettere e lunghezze. La maggior parte dei lemmi iniziava con la lettera "s", mentre una parte minore aveva altre lettere iniziali. La lunghezza media dei lemmi variava da uno a 19 caratteri, con molti relativamente brevi.

La nostra analisi ha anche rivelato che alcuni lemmi erano sottorappresentati nel set di dati, il che potrebbe influenzare la capacità del modello di riconoscerli accuratamente. Abbiamo documentato questi approfondimenti per informare future migliorie nel nostro modello.

Lavori Futuri

Guardando al futuro, ci sono diverse strade per ulteriori ricerche. Prima di tutto, raccomandiamo di esplorare tecniche di estrazione aggiuntive per utilizzare appieno il range di informazioni disponibili sulle schede. I metodi attuali si concentrano principalmente sui lemmi, ed espandere oltre potrebbe rivelare ulteriori approfondimenti.

In secondo luogo, suggeriamo di sperimentare con l'architettura TrOCR, che ha mostrato promesse in altri compiti di riconoscimento della scrittura. Dato il successo dell'encoder Swin nei nostri esperimenti, ulteriori ricerche potrebbero rivelare combinazioni efficaci di diverse architetture di encoder.

Infine, pianifichiamo di indagare sulla possibilità di generare dati sintetici per migliorare il set di dati di addestramento del modello. Questo approccio potrebbe aiutare a superare problemi relativi ai lemmi sottorappresentati e migliorare le prestazioni complessive.

Conclusione

Il nostro progetto mostra un approccio innovativo al riconoscimento del testo scritto a mano dei lemmi di Latino Medievale. Sviluppando un pipeline di rilevamento e riconoscimento su misura, abbiamo raggiunto risultati competitivi affrontando le sfide uniche poste da questa lingua a basso risorso. I nostri risultati evidenziano l'efficacia dell'uso dell'aumento dei dati e delle tecniche di modellazione avanzate per migliorare l'accuratezza del riconoscimento. Crediamo che il nostro lavoro getti una solida base per future ricerche nel campo del riconoscimento della scrittura e della digitalizzazione di testi storici. Mentre continuiamo a perfezionare i nostri metodi, siamo ottimisti riguardo a ulteriori progressi nel riconoscere e preservare il nostro patrimonio linguistico.

Fonte originale

Titolo: A tailored Handwritten-Text-Recognition System for Medieval Latin

Estratto: The Bavarian Academy of Sciences and Humanities aims to digitize its Medieval Latin Dictionary. This dictionary entails record cards referring to lemmas in medieval Latin, a low-resource language. A crucial step of the digitization process is the Handwritten Text Recognition (HTR) of the handwritten lemmas found on these record cards. In our work, we introduce an end-to-end pipeline, tailored to the medieval Latin dictionary, for locating, extracting, and transcribing the lemmas. We employ two state-of-the-art (SOTA) image segmentation models to prepare the initial data set for the HTR task. Furthermore, we experiment with different transformer-based models and conduct a set of experiments to explore the capabilities of different combinations of vision encoders with a GPT-2 decoder. Additionally, we also apply extensive data augmentation resulting in a highly competitive model. The best-performing setup achieved a Character Error Rate (CER) of 0.015, which is even superior to the commercial Google Cloud Vision model, and shows more stable performance.

Autori: Philipp Koch, Gilary Vera Nuñez, Esteban Garces Arias, Christian Heumann, Matthias Schöffel, Alexander Häberlin, Matthias Aßenmacher

Ultimo aggiornamento: 2023-08-18 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2308.09368

Fonte PDF: https://arxiv.org/pdf/2308.09368

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili