Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Finanzas Cuantitativas# Computación y lenguaje# Economía General# Economía

Un Gran Conjunto de Datos de Similitudes de Titulares Históricos

Este conjunto de datos contiene casi 400 millones de pares de titulares similares de periódicos locales.

― 6 minilectura


Datos Históricos deDatos Históricos deTitulares Masivossimilares para investigar.Casi 400 millones de pares de titulares
Tabla de contenidos

En el mundo del procesamiento del lenguaje, hay muchas tareas que requieren entender cuán similares son diferentes fragmentos de texto. Una herramienta importante para este trabajo es un conjunto de datos que recolecta pares de declaraciones o Titulares que significan lo mismo. Aunque hay varios Conjuntos de datos disponibles, muchos de ellos se enfocan en sitios web modernos o son bastante pequeños.

Este proyecto ha creado un nuevo y gran conjunto de datos de titulares similares, basado en Artículos de periódicos locales de Estados Unidos, abarcando un largo período de tiempo desde 1920 hasta 1989. Este conjunto de datos contiene casi 400 millones de pares de titulares que muestran similaridad semántica.

La Fuente de los Datos

Los periódicos locales a menudo tomaban contenido de fuentes de noticias importantes, como la Associated Press. Estos periódicos escribían sus propios titulares que resumían los artículos. Al observar de cerca cómo se presentaban los artículos y usar métodos para entender el texto, el proyecto puede vincular los artículos originales con sus titulares.

El equipo utilizó tecnología moderna para digitalizar estos artículos históricos de periódicos, asegurando que incluso el contenido más viejo pudiera transformarse en un formato que se pudiera usar para análisis. Este enfoque único permite que el conjunto de datos se beneficie tanto de la rica historia de los periódicos locales como de las técnicas de procesamiento modernas.

Lo que Hace Único a Este Conjunto de Datos

Este conjunto de datos se destaca porque cubre un periodo extenso, ofreciendo una mezcla de temas de noticias locales e históricas. Esta riqueza lo hace útil para entrenar modelos de lenguaje que pueden realizar varias tareas lingüísticas. A diferencia de la mayoría de los conjuntos de datos, que pueden tomar texto de comentarios recientes en línea o preguntas duplicadas de foros, este conjunto de datos está basado en contenido histórico, proporcionando una perspectiva diferente sobre cómo ha cambiado el lenguaje a lo largo del tiempo.

El Tamaño del Conjunto de Datos

El conjunto de datos comprende más de 393 millones de pares de titulares. Este tamaño es significativo en comparación con otros conjuntos de datos similares, que a menudo son mucho más pequeños. Por ejemplo, conjuntos de datos populares como Microsoft COCO y Flickr 30k contienen alrededor de 800,000 y 317,000 pares semánticos, respectivamente. La escala del nuevo conjunto de datos permite un análisis más profundo y un entrenamiento más confiable de modelos de lenguaje.

Recopilación y Procesamiento de los Datos

Para crear el conjunto de datos, el equipo digitalizó cuidadosamente las portadas de periódicos sin derechos de autor. Usaron herramientas para reconocer el diseño de las páginas y convertir el texto impreso en texto editable. Después, conectaron los titulares a los artículos a través de una mezcla de información de diseño y comprensión del lenguaje.

Por ejemplo, múltiples porciones de un artículo pueden aparecer en diferentes áreas de una página de periódico, y es crucial identificar qué partes pertenecen juntas. Esto se hace utilizando algoritmos avanzados que tienen en cuenta cómo está organizado el texto en la página.

Desafíos en la Creación del Conjunto de Datos

Una de las dificultades en la creación de este conjunto de datos fue lidiar con errores que a menudo provienen del Reconocimiento Óptico de Caracteres (OCR). El OCR puede cometer errores al leer texto impreso, especialmente de periódicos más antiguos donde la calidad de impresión podría no ser ideal. El proyecto necesitaba un método para trabajar con estos errores y aún así mantener asociaciones de alta calidad entre titulares y artículos.

Además, los periódicos locales a menudo abreviaban artículos para ajustarse a sus limitaciones de espacio, lo que aumentó la complejidad de emparejar correctamente los titulares con sus respectivos artículos.

Métodos Utilizados para la Asociación de Titulares

Para agilizar el proceso de emparejar titulares con artículos, el equipo implementó un enfoque basado en reglas combinado con un modelo de lenguaje. Primero usaron reglas para asegurar una alta precisión en el emparejamiento, luego aplicaron un modelo de lenguaje más flexible para capturar coincidencias adicionales que podrían haberse perdido. Este método de asociación en dos pasos mejora la calidad del conjunto de datos, resultando en una colección de pares semánticos muy confiable.

Para Qué Se Puede Usar Este Conjunto de Datos

El propósito principal de este conjunto de datos es ayudar a entrenar modelos de lenguaje, especialmente aquellos que se centran en entender la similaridad entre textos. Otras aplicaciones incluyen estudiar cómo evoluciona el lenguaje a lo largo del tiempo y en diferentes regiones geográficas. Esto puede proporcionar información sobre los cambios sociales y las transformaciones en los estilos de comunicación.

Comparación con Conjuntos de Datos Existentes

Muchos conjuntos de datos existentes se enfocan en eventos más recientes o formatos, como comentarios en línea o preguntas en foros. Por ejemplo, los conjuntos de datos creados a partir de preguntas duplicadas en foros recopilan pares de preguntas similares, pero a menudo carecen de la profundidad y el contexto histórico que ofrece este nuevo conjunto de datos.

Si bien hay otros conjuntos de datos que se centran en resúmenes abstractos o descripciones para imágenes, ninguno de ellos iguala la escala o la naturaleza histórica de este conjunto de datos, que está específicamente diseñado en torno a titulares de los mismos artículos de noticias.

Direcciones Futuras

Mirando hacia adelante, hay opciones para expandir aún más el conjunto de datos. Hay posibilidades de incluir imágenes y descripciones de los mismos periódicos históricos, lo que podría proporcionar datos aún más valiosos para desarrollar modelos de lenguaje. Sin embargo, dado su tamaño ya masivo, el proyecto actual decidió pausar las expansiones por ahora.

Conclusión

Este extenso conjunto de datos de casi 400 millones de pares de titulares representa un avance significativo en la disponibilidad de datos históricos sobre similaridad semántica. Sirve como un recurso rico para investigadores y desarrolladores que trabajan en procesamiento del lenguaje natural y ofrece una ventana única sobre cómo ha evolucionado el lenguaje a lo largo de gran parte del siglo XX. Con su cuidadosa construcción y atención a las complejidades de los textos históricos, este conjunto de datos está preparado para tener un impacto duradero en el estudio del lenguaje y la semántica.

Fuente original

Título: A Massive Scale Semantic Similarity Dataset of Historical English

Resumen: A diversity of tasks use language models trained on semantic similarity data. While there are a variety of datasets that capture semantic similarity, they are either constructed from modern web data or are relatively small datasets created in the past decade by human annotators. This study utilizes a novel source, newly digitized articles from off-copyright, local U.S. newspapers, to assemble a massive-scale semantic similarity dataset spanning 70 years from 1920 to 1989 and containing nearly 400M positive semantic similarity pairs. Historically, around half of articles in U.S. local newspapers came from newswires like the Associated Press. While local papers reproduced articles from the newswire, they wrote their own headlines, which form abstractive summaries of the associated articles. We associate articles and their headlines by exploiting document layouts and language understanding. We then use deep neural methods to detect which articles are from the same underlying source, in the presence of substantial noise and abridgement. The headlines of reproduced articles form positive semantic similarity pairs. The resulting publicly available HEADLINES dataset is significantly larger than most existing semantic similarity datasets and covers a much longer span of time. It will facilitate the application of contrastively trained semantic similarity models to a variety of tasks, including the study of semantic change across space and time.

Autores: Emily Silcock, Melissa Dell

Última actualización: 2023-08-23 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2306.17810

Fuente PDF: https://arxiv.org/pdf/2306.17810

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares