Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Física# Bibliotecas digitales# Instrumentación y métodos astrofísicos

Mejorando la precisión de OCR para artículos científicos históricos

Transformando documentos escaneados en texto utilizable a través de corrección de errores.

― 6 minilectura


Arreglando OCR en TextosArreglando OCR en TextosHistóricoscientífica escaneada.Mejorando la precisión de la literatura
Tabla de contenidos

Muchos artículos científicos antiguos solo están disponibles como imágenes escaneadas de páginas de papel. Esto hace que sea complicado para las computadoras leer y procesar esos Documentos. Para hacer que estos documentos sean utilizables, podemos transformar las imágenes escaneadas en texto usando un método llamado Reconocimiento Óptico de Caracteres (OCR). Sin embargo, el OCR no siempre funciona a la perfección y puede crear muchos errores en el texto.

¿Qué es OCR?

OCR es una tecnología que convierte diferentes tipos de documentos, como documentos de papel escaneados, PDFs o imágenes tomadas con una cámara digital, en datos editables y buscables. Por ejemplo, si tienes una imagen escaneada de un libro, OCR puede ayudar a convertir esa imagen en un formato que se puede editar en un procesador de texto.

El Problema con OCR

A menudo, el texto producido por OCR no es preciso. Esto puede ser un problema porque hace que sea más difícil para los humanos y para las herramientas de software leer y entender el texto. Cuando se escanean documentos originales, pueden ocurrir errores, como confundir una letra con otra o perder completamente ciertas palabras. Esto puede llevar a malentendidos al leer o analizar el texto más adelante.

Importancia de Corregir Errores de OCR

Corregir los errores cometidos por OCR es crucial. La desinformación puede llevar a conclusiones o análisis incorrectos, especialmente en la investigación científica donde se necesita precisión. Al mejorar los resultados de OCR, podemos asegurarnos de que la información de documentos históricos esté disponible para todos, brindando acceso a conocimientos que de otro modo podrían perderse.

Creando un Mejor Conjunto de Datos

Para abordar el problema de los errores de OCR en artículos científicos históricos, desarrollamos un método para crear un gran conjunto de datos para corregir estos errores. Obtuvimos datos en bruto de una amplia gama de artículos científicos históricos, enfocándonos en áreas como la astrofísica. Nuestro objetivo era construir el conjunto de datos más extenso de texto corregido de OCR, lo que puede ayudar a entrenar algoritmos para reconocer y corregir mejor los errores en el texto generado por OCR.

Cómo Construimos el Conjunto de Datos

Nuestro proceso comenzó reuniendo una gran colección de artículos en formato PDF. Estos artículos fueron revisados para asegurar que eran documentos adecuados y podían ser utilizados para nuestro proyecto. Nos enfocamos en revistas clave que publicaron artículos históricos en astrofísica, ya que tienen una rica colección de documentos.

Después de reunir los artículos, necesitábamos extraer el texto de ellos con precisión. Utilizamos herramientas especializadas que pueden leer archivos LaTeX y TeX, que son comúnmente usados para escribir documentos científicos. Estas herramientas ayudan a descomponer el texto en partes más pequeñas para crear una estructura más clara sin perder información importante.

Desafíos en el Análisis y Estructuración de Documentos

Analizar documentos puede ser complicado debido a la complejidad del formato. Muchos de los archivos con los que trabajamos tenían diferentes estructuras, lo que significa que necesitábamos construir nuestras propias herramientas para el análisis. Teníamos que asegurarnos de que el texto se dividiera correctamente y que se retuvieran todos los detalles.

Además, necesitábamos hacer un seguimiento de dónde provenía cada parte del texto en el documento original. Esto significaba marcar cada palabra, figura importante y citación en el texto para que pudiéramos alinearlo correctamente con los resultados de OCR.

Marcando Texto para Alineación

Para mejorar la precisión de nuestro conjunto de datos, cada palabra en el texto fue marcada. Este proceso de marcado ayuda cuando comparamos nuestro texto generado con la salida del OCR. Registramos las ubicaciones de cada palabra para que pudiéramos comprobar qué salida de OCR corresponde a qué palabra original.

Con este sistema de marcado en su lugar, pudimos generar pares de palabras corregidas y no corregidas. Este emparejamiento es esencial para entrenar algoritmos que aprenderán a corregir errores automáticamente.

Alineando Texto de OCR y Corregido

Una vez que tuvimos nuestro texto marcado, el siguiente paso fue alinear los resultados de OCR con nuestro texto corregido. Creamos un sistema que verifica las posiciones de las palabras en ambos Conjuntos de datos. Al encontrar superposiciones entre las palabras marcadas y la salida de OCR, pudimos determinar qué partes del texto de OCR necesitaban corrección.

El proceso de alineación involucra varios pasos. Primero, encontramos las ubicaciones de elementos clave del texto marcado. Luego, creamos cuadros delimitadores alrededor de estos elementos para ver cómo se superponen con la salida de OCR. Si hay errores en los resultados de OCR, podemos identificarlos a través de este método.

Entrenando Modelos para Mejorar OCR

Con nuestro conjunto de datos listo, nos enfocamos en entrenar modelos que pudieran aprender a corregir errores de OCR. Usamos un tipo de modelo que es adecuado para manejar los diversos errores que el OCR suele cometer, especialmente con palabras que a menudo son malinterpretadas.

El entrenamiento implicó alimentar al modelo conjuntos de texto alineado corregido y de OCR. Al hacer esto, el modelo aprende a identificar errores comunes y entiende cómo mejorar la salida generada por los sistemas de OCR.

Resultados del Entrenamiento

Después de entrenar nuestro modelo, probamos su efectividad en la corrección de errores en documentos históricos. Encontramos que nuestro modelo funcionó significativamente mejor en las salidas de OCR de los artículos que recopilamos. Las mejoras fueron notables, con muchos de los errores comunes corregidos con precisión.

Este éxito significa que nuestro enfoque para generar datos sintéticos y entrenar modelos de corrección puede tener un impacto significativo en cómo se procesan y comprenden la literatura científica histórica.

Direcciones Futuras

Aunque nuestros resultados actuales son prometedores, todavía queda mucho por hacer. Nuestro objetivo es expandir aún más nuestro conjunto de datos incluyendo más artículos de diferentes campos científicos. Esto puede ayudar a que nuestro enfoque sea más versátil y aplicable a un rango más amplio de documentos.

Otra área de mejora es refinar los procesos de marcado y alineación para reducir posibles errores. Al mejorar las herramientas que utilizamos para analizar y gestionar los documentos, podemos asegurar una precisión aún mejor en el futuro.

Conclusión

En resumen, corregir los errores de OCR en artículos científicos históricos es esencial para preservar el conocimiento y hacerlo accesible. Al desarrollar un gran conjunto de datos y entrenar modelos efectivos, podemos mejorar la forma en que leemos y analizamos estos valiosos documentos. A medida que continuamos refinando nuestros métodos y expandiendo nuestro conjunto de datos, esperamos contribuir significativamente al campo de las humanidades digitales y al futuro de la investigación científica.

Fuente original

Título: Large Synthetic Data from the arXiv for OCR Post Correction of Historic Scientific Articles

Resumen: Scientific articles published prior to the "age of digitization" (~1997) require Optical Character Recognition (OCR) to transform scanned documents into machine-readable text, a process that often produces errors. We develop a pipeline for the generation of a synthetic ground truth/OCR dataset to correct the OCR results of the astrophysics literature holdings of the NASA Astrophysics Data System (ADS). By mining the arXiv we create, to the authors' knowledge, the largest scientific synthetic ground truth/OCR post correction dataset of 203,354,393 character pairs. We provide baseline models trained with this dataset and find the mean improvement in character and word error rates of 7.71% and 18.82% for historical OCR text, respectively. When used to classify parts of sentences as inline math, we find a classification F1 score of 77.82%. Interactive dashboards to explore the dataset are available online: https://readingtimemachine.github.io/projects/1-ocr-groundtruth-may2023, and data and code, within the limitations of our agreement with the arXiv, are hosted on GitHub: https://github.com/ReadingTimeMachine/ocr_post_correction.

Autores: Jill P. Naiman, Morgan G. Cosillo, Peter K. G. Williams, Alyssa Goodman

Última actualización: 2023-09-20 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2309.11549

Fuente PDF: https://arxiv.org/pdf/2309.11549

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares