Migliorare l'accuratezza dell'OCR per articoli scientifici storici
Trasformare documenti scannerizzati in testo utilizzabile tramite correzione degli errori.
― 6 leggere min
Indice
- Cos'è l'OCR?
- Il problema con l'OCR
- Importanza di correggere gli errori dell'OCR
- Creare un dataset migliore
- Come abbiamo costruito il dataset
- Sfide nell'analisi e strutturazione dei documenti
- Contrassegnare il testo per l'Allineamento
- Allineare il testo OCR e corretto
- Addestrare modelli per migliorare l'OCR
- Risultati dell'addestramento
- Direzioni future
- Conclusione
- Fonte originale
- Link di riferimento
Molti vecchi articoli scientifici sono disponibili solo come immagini scansionate di pagine di carta. Questo rende difficile per i computer leggerli e elaborarli. Per rendere questi documenti utilizzabili, possiamo trasformare le immagini scansionate in testo usando un metodo chiamato Riconoscimento Ottico dei Caratteri (OCR). Tuttavia, l'OCR non funziona sempre perfettamente e può creare molti errori nel testo.
Cos'è l'OCR?
L'OCR è una tecnologia che converte diversi tipi di documenti, come documenti cartacei scansionati, PDF o immagini catturate da una macchina fotografica digitale, in dati modificabili e ricercabili. Per esempio, se hai un'immagine scansionata di un libro, l'OCR può aiutarti a trasformare quell'immagine in un formato che può essere modificato in un elaboratore di testi.
Il problema con l'OCR
Spesso, il testo prodotto dall'OCR non è accurato. Questo può essere un problema perché rende più difficile per le persone e gli strumenti software leggere e capire il testo. Quando i documenti originali vengono scansionati, possono verificarsi errori, come scambiare una lettera con un'altra o completamente perdersi certe parole. Questo può portare a malintesi quando si legge o si analizza ulteriormente il testo.
Importanza di correggere gli errori dell'OCR
Correggere gli errori fatti dall'OCR è fondamentale. Le informazioni errate possono portare a conclusioni o analisi sbagliate, specialmente nella ricerca scientifica dove è necessaria precisione. Migliorando i risultati dell'OCR, possiamo assicurarci che le informazioni provenienti da documenti storici siano accessibili a tutti, fornendo accesso a conoscenze che altrimenti potrebbero andare perse.
Creare un dataset migliore
Per affrontare il problema degli errori dell'OCR negli articoli scientifici storici, abbiamo sviluppato un metodo per creare un ampio dataset per correggere questi errori. Abbiamo estratto dati grezzi da un'ampia gamma di articoli scientifici storici, concentrandoci su settori come l'astrofisica. Il nostro obiettivo era costruire il dataset di testo OCR corretto più esteso, che possa aiutare ad addestrare algoritmi a riconoscere e correggere meglio gli errori nel testo generato dall'OCR.
Come abbiamo costruito il dataset
Il nostro processo è iniziato raccogliendo una vasta collezione di articoli in formato PDF. Questi articoli sono stati poi controllati per assicurarsi che fossero documenti adeguati e potessero essere utilizzati per il nostro progetto. Ci siamo concentrati su riviste chiave che hanno pubblicato articoli storici in astrofisica, poiché hanno una ricca collezione di documenti.
Dopo aver raccolto gli articoli, dovevamo estrarre il testo da essi con precisione. Abbiamo utilizzato strumenti specializzati che possono leggere file LaTeX e TeX, comunemente usati per scrivere documenti scientifici. Questi strumenti aiutano a suddividere il testo in parti più piccole per creare una struttura più chiara senza perdere informazioni importanti.
Sfide nell'analisi e strutturazione dei documenti
Analizzare i documenti può essere complicato a causa della complessità del formato. Molti dei file con cui abbiamo avuto a che fare avevano strutture diverse, il che significa che dovevamo costruire i nostri strumenti per l'analisi. Dovevamo assicurarci che il testo fosse suddiviso correttamente e che tutti i dettagli fossero mantenuti.
Inoltre, dovevamo tenere traccia di dove proveniva ogni parte del testo nel Documento originale. Questo significava contrassegnare ogni parola, figura importante e citazione nel testo in modo da poterli allineare correttamente con i risultati dell'OCR.
Allineamento
Contrassegnare il testo per l'Per migliorare l'accuratezza del nostro dataset, ogni parola nel testo è stata contrassegnata. Questo processo di marcatura aiuta quando confrontiamo il nostro testo generato con l'output dell'OCR. Abbiamo registrato le posizioni di ogni parola in modo da poter controllare quale output dell'OCR corrisponde a quale parola originale.
Con questo sistema di marcatura in atto, potevamo generare coppie di parole corrette e non corrette. Questa accoppiamento è essenziale per addestrare algoritmi che impareranno a correggere automaticamente gli errori.
Allineare il testo OCR e corretto
Una volta che avevamo il nostro testo contrassegnato, il passo successivo era allineare i risultati dell'OCR con il nostro testo corretto. Abbiamo creato un sistema che controlla le posizioni delle parole in entrambi i Set di dati. Trovando sovrapposizioni tra le parole contrassegnate e l'output dell'OCR, potevamo determinare quali parti del testo OCR necessitavano di essere corrette.
Il processo di allineamento coinvolge diversi passaggi. Prima, troviamo le posizioni degli elementi chiave dal testo contrassegnato. Poi, creiamo riquadri di delimitazione attorno a questi elementi per vedere come si sovrappongono con l'output dell'OCR. Se ci sono errori nei risultati dell'OCR, possiamo identificarli attraverso questo metodo.
Addestrare modelli per migliorare l'OCR
Con il nostro dataset pronto, ci siamo concentrati sull'addestrare modelli che potessero imparare a correggere gli errori dell'OCR. Abbiamo utilizzato un tipo di modello adatto a gestire i vari errori che l'OCR tipicamente commette, specialmente per parole che vengono spesso lette male.
L'addestramento ha coinvolto l'alimentare il modello con set di testo allineati corretti e OCR. Facendo ciò, il modello impara a identificare errori comuni e a capire come migliorare l'output generato dai sistemi OCR.
Risultati dell'addestramento
Dopo aver addestrato il nostro modello, abbiamo testato la sua efficacia nella correzione degli errori nei documenti storici. Abbiamo scoperto che il nostro modello ha funzionato significativamente meglio sugli output OCR degli articoli che abbiamo raccolto. I miglioramenti erano evidenti, con molti degli errori comuni corretti con precisione.
Questo successo significa che il nostro approccio alla generazione di dati sintetici e all'addestramento di modelli di correzione può avere un impatto significativo su come la letteratura scientifica storica viene elaborata e compresa.
Direzioni future
Anche se i nostri risultati attuali sono promettenti, c'è ancora molto da fare. Puntiamo ad espandere ulteriormente il nostro dataset includendo più articoli da diversi campi scientifici. Questo può aiutare a rendere il nostro approccio più versatile e applicabile a un'ampia gamma di documenti.
Un'altra area di miglioramento è affinare i processi di marcatura e allineamento per ridurre potenziali errori. Migliorando gli strumenti che usiamo per analizzare e gestire i documenti, possiamo garantire un'accuratezza ancora migliore in futuro.
Conclusione
In sintesi, correggere gli errori dell'OCR negli articoli scientifici storici è essenziale per preservare la conoscenza e renderla accessibile. Sviluppando un ampio dataset e addestrando modelli efficaci, possiamo migliorare il modo in cui leggiamo e analizziamo questi documenti preziosi. Mentre continuiamo a perfezionare i nostri metodi e ad espandere il nostro dataset, speriamo di contribuire in modo significativo al campo delle scienze umane digitali e al futuro della ricerca scientifica.
Titolo: Large Synthetic Data from the arXiv for OCR Post Correction of Historic Scientific Articles
Estratto: Scientific articles published prior to the "age of digitization" (~1997) require Optical Character Recognition (OCR) to transform scanned documents into machine-readable text, a process that often produces errors. We develop a pipeline for the generation of a synthetic ground truth/OCR dataset to correct the OCR results of the astrophysics literature holdings of the NASA Astrophysics Data System (ADS). By mining the arXiv we create, to the authors' knowledge, the largest scientific synthetic ground truth/OCR post correction dataset of 203,354,393 character pairs. We provide baseline models trained with this dataset and find the mean improvement in character and word error rates of 7.71% and 18.82% for historical OCR text, respectively. When used to classify parts of sentences as inline math, we find a classification F1 score of 77.82%. Interactive dashboards to explore the dataset are available online: https://readingtimemachine.github.io/projects/1-ocr-groundtruth-may2023, and data and code, within the limitations of our agreement with the arXiv, are hosted on GitHub: https://github.com/ReadingTimeMachine/ocr_post_correction.
Autori: Jill P. Naiman, Morgan G. Cosillo, Peter K. G. Williams, Alyssa Goodman
Ultimo aggiornamento: 2023-09-20 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.11549
Fonte PDF: https://arxiv.org/pdf/2309.11549
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.