Migliorare l'OCR per i documenti storici bulgari
Questo progetto migliora la correzione del testo nei documenti storici bulgari usando la tecnologia OCR.
― 5 leggere min
Indice
La digitalizzazione dei documenti storici è fondamentale per mantenere viva l'eredità culturale. Un passaggio chiave di questo processo è trasformare le immagini scansionate di questi documenti in testo usando il Riconoscimento Ottico dei Caratteri (OCR). Questa tecnologia aiuta a rendere il testo ricercabile e più facile da gestire. Tuttavia, non è sempre semplice. I tool OCR standard spesso faticano con stili di scrittura storici e layout complessi, portando a errori nel testo. Per questo motivo, spesso è necessario un passaggio extra per correggere il testo generato dall'OCR.
La Necessità di un'Analisi Post-OCR
Molte biblioteche e musei stanno cercando di convertire i loro documenti cartacei in forme digitali, il che rende più facile l'accesso e preserva la storia. Tuttavia, i documenti scritti con vecchie regole ortografiche possono confondere i sistemi OCR, portando a errori di riconoscimento. Questi errori possono influenzare le prestazioni delle applicazioni che dipendono da un testo accurato, come il Riconoscimento di Entità Nominate e la sintesi del testo. Anche piccoli errori possono causare problemi maggiori, con ricerche che mostrano che anche un lieve aumento degli errori può ridurre l'affidabilità dei dati.
I moderni sistemi OCR possono leggere circa il 99% dei caratteri in documenti di buona qualità. Per lingue come il bulgaro, dove le vecchie regole ortografiche potrebbero non corrispondere all'uso contemporaneo, le prestazioni possono calare. La mancanza di un numero sufficiente di dati di addestramento per i sistemi OCR da cui apprendere aggrava la difficoltà, specialmente per i documenti storici bulgari.
Focus sulle Ortografie Storiche Bulgare
In questo progetto, ci concentriamo specificamente sull'ortografia storica bulgara. Abbiamo creato un dataset di riferimento per aiutare a valutare la correzione del testo prodotto dall'OCR. Il dataset include documenti scritti secondo l'ortografia Drinov, utilizzata nel XIX secolo. Per ottenere più dati, abbiamo sviluppato un modo per generare campioni sintetici sia nell'ortografia Drinov che in quella Ivanchev usando testi moderni bulgari.
Utilizzando modelli linguistici avanzati e un framework speciale, abbiamo aggiunto meccanismi per migliorare l'accuratezza della correzione del testo post-OCR. Il nostro metodo ha dimostrato di ridurre gli errori fatti durante il riconoscimento e ha migliorato la qualità dei documenti del 25%. Questo è un passo significativo rispetto ai modelli precedenti.
Creazione del Dataset di Riferimento
Creare questo dataset di riferimento è una parte importante del nostro lavoro. L'ortografia Drinov non è ampiamente usata e non esisteva un dataset specifico per essa. Abbiamo raccolto vecchi giornali dalla Biblioteca Nazionale e abbiamo lavorato per annotare i documenti, assicurandoci che fossero allineati con i risultati OCR moderni.
Poiché il bulgaro ha subito varie riforme linguistiche, questa varietà ortografica presenta un problema. Il nostro dataset aiuta a fornire un modo standardizzato per valutare i sistemi OCR in questo specifico contesto storico.
Il Processo di Correzione degli Errori
Dopo aver stabilito il dataset, ci siamo concentrati sul processo di correzione degli errori stesso. Il primo passo è rilevare se una parola è stata riconosciuta correttamente dal sistema OCR. Se una parola è trovata in un dizionario predefinito, la consideriamo corretta. Se non è trovata, viene segnata come errore. Questa classificazione viene effettuata utilizzando diversi modelli, inclusi alcuni addestrati su varie lingue.
Il passo successivo riguarda la correzione degli errori rilevati. Abbiamo utilizzato metodi diversi per questo. Un metodo semplice è trovare parole simili agli errori rilevati in base a quanto spesso compaiono nel dizionario. Metodi più avanzati impiegano modelli a livello di carattere che utilizzano meccanismi di attenzione per garantire una migliore correzione degli errori.
Dati Sintetici
Utilizzo diPer migliorare ulteriormente il nostro modello, abbiamo generato dati sintetici. Questi dati sono stati creati trasformando l'ortografia bulgara contemporanea in versioni storiche usando regole di trasformazione specifiche. Abbiamo poi aggiunto rumore, simulando errori reali che i sistemi OCR potrebbero fare. Questo aiuta il nostro modello a imparare meglio esponendolo a una varietà di potenziali errori.
Valutazione delle Prestazioni
Abbiamo stabilito metriche di valutazione rigorose per valutare le prestazioni dei nostri modelli. Per il rilevamento degli errori, abbiamo considerato precisione, richiamo e F1-score. Per la correzione degli errori, abbiamo valutato i miglioramenti nella qualità del testo confrontando i risultati originali dell'OCR con le versioni corrette.
Nei nostri esperimenti, abbiamo scoperto che il nostro miglior modello ha raggiunto punteggi elevati sia nelle ortografie Ivanchev che Drinov. Questo dimostra la capacità del modello di adattarsi e migliorare con l'introduzione di dati sintetici.
Tipi di Errori e Analisi
Nonostante i miglioramenti, abbiamo osservato che alcuni errori sono rimasti, in particolare quelli legati alla Segmentazione delle parole. Questi errori si verificano quando l'OCR riconosce male dove finisce una parola e inizia un'altra. Abbiamo delineato vari tipi di errori commessi dal motore OCR e discusso la necessità di ricerche mirate per correggere gli errori di segmentazione delle parole.
Conclusione e Prossimi Passi
Nel nostro lavoro, abbiamo dimostrato un nuovo metodo per correggere gli errori testuali nei documenti storici bulgari dopo il processo di OCR. Il nostro approccio ha portato a miglioramenti misurabili nella qualità del testo e ha rilevanza per altre lingue slave grazie alle loro caratteristiche simili.
Andando avanti, abbiamo intenzione di affrontare le sfide degli errori di segmentazione delle parole. Migliorando le nostre capacità in quest'area, speriamo di migliorare ulteriormente la qualità delle uscite OCR e contribuire a una comprensione più efficace dei documenti storici.
In sintesi, il nostro lavoro contribuisce a preservare la storia culturale attraverso pratiche di digitalizzazione migliori e fornisce risorse preziose per ricerche future in quest'area.
Titolo: Post-OCR Text Correction for Bulgarian Historical Documents
Estratto: The digitization of historical documents is crucial for preserving the cultural heritage of the society. An important step in this process is converting scanned images to text using Optical Character Recognition (OCR), which can enable further search, information extraction, etc. Unfortunately, this is a hard problem as standard OCR tools are not tailored to deal with historical orthography as well as with challenging layouts. Thus, it is standard to apply an additional text correction step on the OCR output when dealing with such documents. In this work, we focus on Bulgarian, and we create the first benchmark dataset for evaluating the OCR text correction for historical Bulgarian documents written in the first standardized Bulgarian orthography: the Drinov orthography from the 19th century. We further develop a method for automatically generating synthetic data in this orthography, as well as in the subsequent Ivanchev orthography, by leveraging vast amounts of contemporary literature Bulgarian texts. We then use state-of-the-art LLMs and encoder-decoder framework which we augment with diagonal attention loss and copy and coverage mechanisms to improve the post-OCR text correction. The proposed method reduces the errors introduced during recognition and improves the quality of the documents by 25\%, which is an increase of 16\% compared to the state-of-the-art on the ICDAR 2019 Bulgarian dataset. We release our data and code at \url{https://github.com/angelbeshirov/post-ocr-text-correction}.}
Autori: Angel Beshirov, Milena Dobreva, Dimitar Dimitrov, Momchil Hardalov, Ivan Koychev, Preslav Nakov
Ultimo aggiornamento: Aug 31, 2024
Lingua: English
URL di origine: https://arxiv.org/abs/2409.00527
Fonte PDF: https://arxiv.org/pdf/2409.00527
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.