Nuevo conjunto de datos mejora el análisis de manuscritos
U-DIADS-Bib agiliza la segmentación de manuscritos antiguos a través de la colaboración de expertos.
― 11 minilectura
Tabla de contenidos
El interés en el patrimonio cultural ha crecido en la comunidad tecnológica, llevando a más colaboración entre científicos de la computación y académicos de humanidades. Este trabajo en equipo ayuda a ambos lados. Los académicos pueden analizar documentos históricos más fácilmente, mientras que los científicos de la computación aprenden a trabajar con estos datos valiosos. Una tarea importante para los académicos que estudian manuscritos antiguos es reconocer su estructura, incluyendo cómo está organizado el contenido en la página. Esto les ayuda a entender mejor los manuscritos y ver conexiones entre diferentes textos.
En el campo tecnológico, esta tarea se conoce como segmentación de páginas. Es parte de un área más amplia llamada análisis de diseño de documentos, que también incluye descomponer líneas de texto y detectar las líneas base del texto. Para abordar estos desafíos de manera efectiva, se necesita una cantidad significativa de datos sobre los manuscritos. Específicamente, datos de "Verdad de Tierra" (GT) precisos son vitales. GT se refiere a las anotaciones correctas que muestran cómo deberían dividirse las páginas en diferentes secciones.
Tener un GT preciso es necesario para entrenar modelos computacionales y evaluar su rendimiento. Esta capacidad de medir el rendimiento de manera confiable permite comparar diferentes enfoques. Los mapas de GT deben ser precisos, lo cual puede ser complicado. Surgen dos retos principales al crearlos: lleva mucho tiempo y requiere conocimientos específicos que solo poseen los expertos. Además, los manuscritos antiguos pueden verse bastante diferentes entre sí. Factores como el envejecimiento, diferencias de diseño, manchas de tinta y problemas de escaneo pueden hacer que crear anotaciones confiables sea complicado. Por lo tanto, cualquier automatización utilizada en la segmentación puede introducir ruido, llevando a resultados pobres.
Existen muchos conjuntos de datos disponibles para tareas de segmentación de páginas, pero a menudo no son suficientes. O les falta detalle, solo distinguiendo entre texto y fondo, o solo incluyen unas pocas clases de diseño. Además, muchos de estos conjuntos de datos se centran en un solo tipo de sistema de escritura, como el latino o el árabe, lo que limita su utilidad.
Para abordar estos problemas, se ha creado un nuevo conjunto de datos llamado U-DIADS-Bib. Este conjunto proporciona una segmentación detallada, precisa y libre de ruido de documentos. Se desarrolló a través de la cooperación entre expertos en visión por computadora y humanidades. Los académicos ayudaron a definir qué aspectos de los manuscritos eran esenciales para el estudio, mientras que los especialistas en visión por computadora garantizaron que los GT fueran consistentes y de alta calidad. Esta colaboración resultó en seis clases claras: fondo, texto principal, paratexto, decoración, título y encabezados de capítulo.
Los manuscritos seleccionados incluyen aquellos en el alfabeto latino y el alfabeto consonántico siríaco. Esta variedad presenta un desafío debido a las diferencias en sus sistemas de escritura. Un problema significativo enfrentado al inicio de este proyecto fue el proceso que consume mucho tiempo de segmentar manualmente las imágenes para crear los GT.
Para reducir la carga de trabajo para los académicos, se desarrolló un nuevo pipeline de segmentación. Este pipeline utiliza una mezcla de trabajo manual y la salida de modelos de aprendizaje automático para crear una segmentación inicial del conjunto de datos completo. Luego, expertos humanos refinan estos resultados para crear los mapas de GT finales. Este método resulta ser mucho más rápido que comenzar desde cero.
Además, para fomentar la investigación que requiere menos ejemplos, se creó una versión de "pocos ejemplos" del conjunto de datos (U-DIADS-BibFS). Esta versión permite el desarrollo de modelos que pueden trabajar de manera efectiva con datos de entrenamiento limitados, que a menudo es una necesidad en el mundo real.
Entendiendo el Conjunto de Datos U-DIADS-Bib
U-DIADS-Bib consiste en 200 imágenes tomadas de cuatro manuscritos diferentes, con 50 imágenes de cada uno. Los expertos seleccionaron estos manuscritos en función de su complejidad de diseño y elementos distintos. Los manuscritos incluyen principalmente Biblias latinas y siríacas de entre los siglos VI y XII.
Las imágenes de cada manuscrito fueron elegidas para representar varias clases de segmentación que fueron acordadas tanto por humanistas como por científicos de la computación. Las imágenes se obtuvieron de una biblioteca digital y proporcionan una amplia gama de diseños históricos.
Aquí hay un breve resumen de los manuscritos seleccionados:
Latín 2 es conocido como la Segunda Biblia de Carlos el Calvo. Fue creada entre el año 871 y 877 d.C. y consta de 444 páginas de pergamino dispuestas en dos columnas.
Latín 14396 fue producida entre el año 1145 y 1150 en la Abadía de Saint-Victor en París. Contiene textos bíblicos desde Esdras hasta el Apocalipsis, compuesta de 170 páginas de pergamino con un diseño de dos columnas.
Latín 16746 fue creada entre el año 1170 y 1190 en la Abadía de Saint Bertin. Este manuscrito, que contiene el Nuevo Testamento, también tiene un formato de dos columnas y consta de 176 páginas de pergamino.
Siriaque 341 probablemente proviene del Monasterio de Baquqa en Irak y fue producido entre los siglos VI y VII d.C. Contiene el Antiguo Testamento en la versión siríaca Peshitta y tiene un diseño complejo de tres columnas, constando de 256 páginas.
El conjunto de datos presenta seis clases de segmentación, que incluyen:
Texto Principal: Se refiere al área de escritura principal e incluye signos de puntuación. El diseño puede estar estructurado en una o dos columnas.
Decoración: Esta clase cubre varios elementos decorativos, incluyendo miniaturas, iniciales decoradas y elementos gráficos más simples.
Título: Se refiere a las frases iniciales y finales indicadas por colores de tinta distintos o estilos únicos.
Encabezados de Capítulo: Estos encabezados más pequeños ayudan a localizar capítulos específicos dentro del texto.
Paratexto: Esta clase incluye varias anotaciones fuera del texto principal, como glosas, correcciones y otras notas.
Fondo: Representa el fondo de la página y cualquier contorno visible en las imágenes escaneadas.
Estas categorías se eligieron basándose en discusiones con expertos en humanidades, quienes proporcionaron información sobre lo que era relevante para estudiar los manuscritos. Esta clasificación ayuda a evitar interpretaciones rígidas y abre la puerta a aplicaciones más amplias en diferentes campos académicos.
Proceso de Creación de la Verdad de Tierra
La creación del conjunto de datos U-DIADS-Bib implicó un esfuerzo colaborativo entre científicos de la computación y humanistas. La anotación manual es crucial para producir GTs precisos, pero también es un trabajo que consume tiempo, especialmente al tratar con elementos de diseño intrincados en los manuscritos.
Para lograr anotaciones de calidad mientras se gestiona el tiempo de manera efectiva, se desarrolló un pipeline de segmentación único. El proceso comienza seleccionando 50 imágenes de cada manuscrito que representen todas las clases de segmentación. Un subconjunto de 10 imágenes se procesa utilizando un método de umbralización para proporcionar una versión binarizada preliminar para los anotadores humanos.
Una vez que las imágenes binarizadas están listas, los expertos segmentan manualmente estas imágenes a nivel de píxel. Este trabajo detallado establece una base para entrenar modelos de aprendizaje automático. Estos modelos luego producirán una segmentación inicial para todo el conjunto de datos.
Después de entrenar el modelo, se ejecuta en el conjunto de datos completo para crear anotaciones. Una vez que se generan estas salidas, los expertos las refinan y corrigen meticulosamente, asegurándose de que se alineen con las imágenes originales. Mientras que el proceso utiliza soporte de máquina, las decisiones finales siempre son tomadas por expertos humanos, previniendo posibles sesgos o errores.
El conjunto de datos contiene imágenes de alta calidad almacenadas en formato JPEG, con imágenes GT correspondientes en formato PNG. Las anotaciones están codificadas por colores para representar diferentes clases, asegurando claridad. El conjunto de datos final incluye un total de 50 imágenes originales para cada manuscrito, junto con sus respectivos datos GT.
Evaluación del Rendimiento
Para analizar el rendimiento del sistema, se probaron una serie de modelos de aprendizaje profundo populares en el conjunto de datos. Los modelos seleccionados incluyeron FCN, Lite Reduced Atrous Spatial Pyramid Pooling (LRASPP), DeepLabV3, DeepLabV3+ y Pyramid Scene Parsing Network (PSPNet).
Durante las pruebas, se calculó un promedio ponderado y un promedio macro de varias métricas de rendimiento, como precisión, recuperación, intersección sobre unión (IoU) y F1-Score. Estas métricas miden qué tan bien los modelos pueden identificar las diferentes regiones semánticas con precisión.
Los modelos fueron entrenados con una configuración que involucraba el optimizador Adam, una tasa de aprendizaje y una disminución de peso. Se monitoreó el entrenamiento, con un mecanismo de detención anticipada si el rendimiento no mejoraba después de un número especificado de épocas.
Los resultados de esta evaluación mostraron que los modelos se desempeñaron de manera diferente a través de los diferentes manuscritos. Cada manuscrito presentó desafíos únicos en cuanto a las clases de segmentación que eran más difíciles de identificar. El modelo DeepLabV3+, en particular, mostró el mejor rendimiento en general, indicando su efectividad para aprovechar tanto la información global como la local.
Enfoque de Aprendizaje de Pocos Ejemplos
Además del conjunto de datos principal, se creó una versión de pocos ejemplos (U-DIADS-BibFS) para enfatizar la importancia de entrenar con datos limitados. Esta configuración consistió en 43 imágenes por manuscrito, con apenas tres imágenes dedicadas al entrenamiento.
Los resultados del ajuste de pocos ejemplos se analizaron de manera similar al conjunto de datos completo, utilizando promedios ponderados y macro. El modelo de estado del arte actual se desempeñó bien en varias métricas. Sin embargo, el rendimiento generalmente disminuyó en comparación con el conjunto de datos completo, con caídas notables en precisión para varias clases de manuscritos.
La configuración de pocos ejemplos resalta los desafíos enfrentados al trabajar con datos mínimos. Sin embargo, también demuestra el potencial para desarrollar métodos efectivos que puedan funcionar bien bajo estas limitaciones.
Conclusión y Direcciones Futuras
U-DIADS-Bib es un avance significativo en el campo del análisis de diseño de documentos, abordando las deficiencias anteriores encontradas en conjuntos de datos existentes. Ofrece un enfoque detallado y preciso que permite desarrollar sistemas confiables para su uso práctico.
La combinación de anotaciones manuales con procesos automatizados ha aliviado la carga de trabajo de los expertos humanos, permitiéndoles producir grandes cantidades de datos de alta calidad de manera eficiente. A pesar de los avances logrados, siguen existiendo desafíos en la identificación de ciertas clases de diseño, particularmente en configuraciones de datos más limitadas.
El trabajo futuro se centrará en expandir el conjunto de datos para incluir varios tipos y características de documentos, lo que puede promover más investigación e innovación. El objetivo es refinar la clasificación de paratextos e introducir nuevas tareas de segmentación para crear un recurso más completo para el análisis de diseño de documentos.
Además, explorar técnicas destinadas a mejorar el rendimiento de la segmentación y reducir el tamaño de muestra de entrenamiento requerido será un enfoque clave. Esto incluye investigar módulos específicos centrados en características y optimizar las estructuras de modelos. La meta es fomentar el desarrollo de métodos que puedan adaptarse bien a una variedad de manuscritos históricos y modernos.
Título: U-DIADS-Bib: a full and few-shot pixel-precise dataset for document layout analysis of ancient manuscripts
Resumen: Document Layout Analysis, which is the task of identifying different semantic regions inside of a document page, is a subject of great interest for both computer scientists and humanities scholars as it represents a fundamental step towards further analysis tasks for the former and a powerful tool to improve and facilitate the study of the documents for the latter. However, many of the works currently present in the literature, especially when it comes to the available datasets, fail to meet the needs of both worlds and, in particular, tend to lean towards the needs and common practices of the computer science side, leading to resources that are not representative of the humanities real needs. For this reason, the present paper introduces U-DIADS-Bib, a novel, pixel-precise, non-overlapping and noiseless document layout analysis dataset developed in close collaboration between specialists in the fields of computer vision and humanities. Furthermore, we propose a novel, computer-aided, segmentation pipeline in order to alleviate the burden represented by the time-consuming process of manual annotation, necessary for the generation of the ground truth segmentation maps. Finally, we present a standardized few-shot version of the dataset (U-DIADS-BibFS), with the aim of encouraging the development of models and solutions able to address this task with as few samples as possible, which would allow for more effective use in a real-world scenario, where collecting a large number of segmentations is not always feasible.
Autores: Silvia Zottin, Axel De Nardin, Emanuela Colombi, Claudio Piciarelli, Filippo Pavan, Gian Luca Foresti
Última actualización: 2024-01-16 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2401.08425
Fuente PDF: https://arxiv.org/pdf/2401.08425
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.