Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Aprovechando periódicos históricos para modelos de QA modernos

El conjunto de datos ChroniclingAmericaQA mejora la respuesta a preguntas usando textos de periódicos históricos.

― 9 minilectura


Datos Históricos paraDatos Históricos paraModelos de QAmejorar la respuesta a preguntas.Utilizando periódicos viejos para
Tabla de contenidos

La respuesta a preguntas (QA) y la comprensión de lectura automática (MRC) se han vuelto campos importantes en la tecnología, especialmente con el auge de modelos informáticos avanzados. Estos modelos pueden leer texto y responder preguntas basadas en él. En los últimos años, se han creado muchos conjuntos de datos grandes para ayudar a entrenar estos modelos. Sin embargo, la mayoría de estos conjuntos de datos provienen de fuentes modernas como Wikipedia o artículos en línea. Hay colecciones históricas ricas, como periódicos antiguos, que tienen información útil pero que no se utilizan a menudo para entrenar estos modelos.

Para abordar esta brecha, se ha creado un nuevo conjunto de datos llamado ChroniclingAmericaQA. Este conjunto de datos contiene 485,000 pares de preguntas y respuestas tomadas de una colección de periódicos históricos estadounidenses. Estos periódicos fueron publicados a lo largo de un período de 120 años, lo que es un tiempo mucho más largo en comparación con otros conjuntos de datos disponibles. Uno de los principales desafíos al trabajar con periódicos antiguos es que el texto generado por el Reconocimiento Óptico de Caracteres (OCR) a veces puede ser de bastante mala calidad. Para asegurar que los modelos se prueben de manera efectiva, el conjunto de datos permite que se respondan preguntas basadas en tres tipos de contenido: texto en bruto que es ruidoso, texto corregido que ha sido mejorado por calidad y imágenes escaneadas de los periódicos.

La Importancia de los Periódicos Históricos

Los periódicos históricos proporcionan una ventana valiosa al pasado. Capturan eventos, culturas y actitudes sociales de diferentes períodos de tiempo. Esto los convierte en un recurso único para entender la historia. Sin embargo, usarlos para tareas de QA puede ser complicado. El lenguaje en estos periódicos antiguos a menudo es diferente del lenguaje de hoy. Esto plantea preguntas sobre si los modelos modernos entrenados con texto actual pueden entender y procesar efectivamente estos documentos históricos.

Además, muchos de estos periódicos antiguos solo están disponibles en forma escaneada, y la calidad del texto OCR puede variar enormemente. Esto añade a la complejidad, ya que un texto inconsistente puede llevar a desafíos para extraer información con precisión. Al crear un conjunto de datos a medida, hay una oportunidad de mejorar la investigación en QA al permitir que los modelos se prueben contra estos textos únicos y desafiantes.

Creación del Conjunto de Datos

Recolección de Datos

El primer paso para construir el conjunto de datos ChroniclingAmericaQA fue recolectar las páginas de los periódicos. La fuente de este conjunto de datos fue una colección de dominio público de periódicos históricos estadounidenses llamada Chronicling America. Esta colección contiene más de 21 millones de páginas de periódicos publicados entre 1756 y 1963.

Dada la extensa gama de contenido, sería poco práctico recopilar y procesar manualmente todas las páginas de periódicos disponibles. En su lugar, se utilizó un proceso de selección. Se eligieron aleatoriamente un total de 100 páginas de periódicos de cada década entre 1800 y 1920 en los 53 estados de Estados Unidos. Esto resultó en una colección de más de 39,000 páginas, proporcionando una representación diversa del contexto histórico.

Preparación de datos

Después de recolectar las páginas de los periódicos, el siguiente paso fue preparar los datos para la Generación de preguntas. El texto original del OCR a menudo contenía errores e inexactitudes. Si se dejaba sin corregir, este texto ruidoso no produciría respuestas precisas o exactas.

Para mejorar la calidad del texto OCR, se emplearon avances recientes en tecnología. Se utilizaron Modelos de Lenguaje Grande (LLMs) para corregir automáticamente errores de ortografía y gramática en el texto. Específicamente, se usó el modelo GPT 3.5 Turbo para este propósito. El texto en bruto se dividió en párrafos más pequeños, lo que facilitó su gestión y procesamiento. El modelo GPT pudo corregir una parte significativa del texto, resultando en una versión más limpia y confiable para la generación de preguntas.

Generación de Preguntas

El paso final en la creación del conjunto de datos implicó generar preguntas a partir de los párrafos revisados. Para esto, se utilizó un modelo conocido como T5-base. Este modelo está diseñado específicamente para generar preguntas y fue ajustado en base a un conjunto de datos conocido llamado SQuAD.

El modelo generó preguntas basadas en entidades nombradas encontradas en el texto. A través de este proceso, se produjeron más de 2.9 millones de preguntas. Sin embargo, muchas de estas preguntas sufrían de problemas, como ser demasiado vagas o revelar las respuestas. Para refinar el conjunto de datos, se aplicó un proceso de filtrado de varios pasos. Esto incluyó eliminar preguntas que no terminaban con un signo de interrogación, eliminar duplicados y asegurar claridad y especificidad en las preguntas generadas.

Análisis y Características del Conjunto de Datos

Estadísticas de Datos

Después de procesar y filtrar, el conjunto de datos ChroniclingAmericaQA constaba de 485,000 pares de preguntas y respuestas de alta calidad. Los datos se dividieron en conjuntos de entrenamiento, desarrollo y prueba, con una gran parte destinada al entrenamiento. Esta configuración es esencial para entrenar modelos de manera efectiva y permite una evaluación integral.

El conjunto de datos también presenta una amplia gama de tipos de entidades nombradas, como personas, lugares y organizaciones, lo que lo hace versátil para diferentes tareas de QA. Además, los tipos de preguntas en el conjunto de datos son diversos, incluyendo aquellas que piden información específica o perspectivas culturales más amplias.

Rendimiento del Modelo

Para evaluar la efectividad del conjunto de datos ChroniclingAmericaQA, se probaron varios modelos avanzados. Esto incluyó BERT, RoBERTa y T5, que se construyen sobre una arquitectura de transformador. El rendimiento de estos modelos se evaluó utilizando medidas de calidad como el match exacto (EM) y la puntuación F1.

Los resultados demostraron que los modelos entrenados específicamente en el conjunto de datos ChroniclingAmericaQA tuvieron un rendimiento significativamente mejor que los entrenados en otros conjuntos de datos. Esto destaca la importancia de ajustar modelos en datos específicos del dominio para mejorar su rendimiento.

Rendimiento de Modelos de Lenguaje Grande

Además de los modelos de transformadores, el conjunto de datos también fue evaluado utilizando Modelos de Lenguaje Grande (LLMs), como LLaMA2 y Mistral. Dado que estos modelos suelen producir respuestas más largas, métricas de evaluación tradicionales como EM y puntuaciones F1 pueden no capturar completamente su rendimiento.

En su lugar, se introdujeron métricas alternativas como el Recall de Tokens y el Contenido de Cadenas de Respuestas. Estas métricas proporcionan una mejor comprensión de qué tan bien los LLMs pueden generar respuestas basadas en el contexto proporcionado. Los resultados indicaron que LLaMA2, siendo un modelo más grande, logró un rendimiento significativamente mejor en comparación con modelos más pequeños.

Evaluación Humana

Para evaluar aún más la calidad del conjunto de datos ChroniclingAmericaQA, se realizó una evaluación manual. Un grupo de pares de preguntas y respuestas fue revisado por estudiantes de posgrado que los calificaron según criterios como legibilidad, relevancia y claridad. Los comentarios de esta evaluación indicaron que el conjunto de datos es de alta calidad, con la mayoría de las preguntas siendo claras y directamente relacionadas con el contenido.

Casos de Uso

El conjunto de datos ChroniclingAmericaQA ofrece varias aplicaciones potenciales. Primero, sirve como un nuevo estándar para entrenar y evaluar modelos de QA en textos históricos. Esto puede mejorar cómo los modelos manejan las complejidades asociadas con documentos antiguos, incluyendo variaciones en el lenguaje y inexactitudes del OCR.

En segundo lugar, el conjunto de datos puede involucrar al público con materiales históricos ayudando a desarrollar habilidades en lectura crítica y artes del lenguaje. Los educadores también pueden usarlo para evaluar la comprensión de los estudiantes sobre documentos históricos, integrando el conjunto de datos en su currículo.

Además, dado que el conjunto de datos incluye imágenes de los periódicos originales junto con el texto OCR, ofrece un escenario realista para evaluar modelos. Varias instituciones podrían usar el conjunto de datos para mejorar el acceso a documentos históricos y apoyar la investigación en este área.

Consideraciones éticas

Finalmente, es crucial reconocer las consideraciones éticas que rodean el conjunto de datos. Dado que se basa en datos históricos, existe la posibilidad de que parte del contenido refleje prejuicios o puntos de vista ofensivos prevalentes durante la época. Se tomaron medidas para minimizar este riesgo a través de un análisis y filtrado cuidadosos de las preguntas generadas. Sin embargo, este problema es común en materiales históricos y merece atención y escrutinio continuos.

Conclusión

El conjunto de datos ChroniclingAmericaQA representa un avance significativo en el uso de periódicos históricos para la respuesta a preguntas y la comprensión de lectura automática. Al abordar los desafíos relacionados con la calidad del texto OCR y el lenguaje histórico, ofrece un recurso valioso para investigadores y profesionales en el campo.

Las características únicas del conjunto de datos, incluyendo su largo período de tiempo y contenido diverso, ofrecen una oportunidad para una mayor exploración y desarrollo de sistemas de QA. A medida que la investigación continúa evolucionando en esta área, ChroniclingAmericaQA se erige como un pilar para entender y aprovechar los textos históricos en aplicaciones modernas.

En resumen, este conjunto de datos no solo enriquece el campo del procesamiento del lenguaje natural, sino que también fomenta una apreciación más profunda de nuestro patrimonio histórico. Al facilitar la intersección de la tecnología y la historia, promueve una comprensión más matizada del pasado, beneficiando tanto a investigadores como al público en general.

Fuente original

Título: ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages

Resumen: Question answering (QA) and Machine Reading Comprehension (MRC) tasks have significantly advanced in recent years due to the rapid development of deep learning techniques and, more recently, large language models. At the same time, many benchmark datasets have become available for QA and MRC tasks. However, most existing large-scale benchmark datasets have been created predominantly using synchronous document collections like Wikipedia or the Web. Archival document collections, such as historical newspapers, contain valuable information from the past that is still not widely used to train large language models. To further contribute to advancing QA and MRC tasks and to overcome the limitation of previous datasets, we introduce ChroniclingAmericaQA, a large-scale temporal QA dataset with 487K question-answer pairs created based on the historical newspaper collection Chronicling America. Our dataset is constructed from a subset of the Chronicling America newspaper collection spanning 120 years. One of the significant challenges for utilizing digitized historical newspaper collections is the low quality of OCR text. Therefore, to enable realistic testing of QA models, our dataset can be used in three different ways: answering questions from raw and noisy content, answering questions from cleaner, corrected version of the content, as well as answering questions from scanned images of newspaper pages. This and the fact that ChroniclingAmericaQA spans the longest time period among available QA datasets make it quite a unique and useful resource.

Autores: Bhawna Piryani, Jamshid Mozafari, Adam Jatowt

Última actualización: 2024-05-10 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2403.17859

Fuente PDF: https://arxiv.org/pdf/2403.17859

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares