Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Finanzas Cuantitativas# Computación y lenguaje# Economía General# Economía

Archivo de Noticias Históricas Completo

Un conjunto de datos rico con 2.7 millones de artículos de noticias de 1878 a 1977.

― 9 minilectura


Recolección de datos deRecolección de datos denoticias históricasnoticias de EE. UU.Un archivo masivo de artículos de
Tabla de contenidos

Antes, los periódicos locales en EE.UU. usaban agencias de noticias como Associated Press para obtener contenido para sus historias. Esto era importante para formar una identidad nacional al proporcionar una visión compartida de los eventos. Sin embargo, no había una colección completa de Artículos enviados a través de estas agencias de noticias. Este proyecto busca crear esa colección utilizando tecnología avanzada para procesar una gran cantidad de imágenes de periódicos antiguos.

El resultado final es un conjunto de datos de 2.7 millones de artículos de noticias únicos publicados entre 1878 y 1977, todos en dominio público. Estos artículos han sido organizados con detalles sobre dónde fueron escritos, qué temas cubren y quiénes son mencionados en ellos. Esta info puede ser útil tanto para entender la historia como para entrenar modelos de lenguaje, que se usan en varios campos de investigación como la lingüística y las ciencias sociales.

La necesidad de datos Históricos

A medida que las fuentes actuales para entrenar modelos de lenguaje se vuelven más escasas, los investigadores miran al pasado en busca de información valiosa. Los textos históricos interesan tanto a académicos como al público en general, y hacerlos disponibles para análisis podría generar nuevos conocimientos. Aunque mucho material histórico ya está en dominio público, acceder a estos textos sigue siendo un desafío. A menudo, requieren métodos complejos para extraer y organizar la información, ya sea para entrenar modelos o realizar investigaciones.

Los artículos de noticias son cruciales para capturar el conocimiento histórico. Las agencias de noticias, como Associated Press y United Press, eran algunas de las principales fuentes de noticias en EE.UU., especialmente cuando mantener una red global de noticias era demasiado costoso.

La historiadora de medios Julia Guarneri señaló que en las décadas de 1910 y 1920, muchos de los artículos que leían los estadounidenses estaban conectados a mercados de noticias nacionales. Esto ayudó a formar una comprensión común de la vida estadounidense, influyendo en la política nacional y las relaciones internacionales en el siglo XX.

A pesar de la importancia de este contenido, no se ha hecho disponible un conjunto de datos completo de los artículos de agencias de noticias de los siglos XIX y XX. Los archivos existentes tienden a centrarse en regiones o períodos específicos y a menudo son insuficientes, ya que muchos periódicos no sobrevivieron.

Metodología

Para abordar esta brecha, los investigadores desarrollaron un proceso avanzado para reconstruir un archivo de agencias de noticias. Comenzaron con millones de imágenes escaneadas de periódicos locales a lo largo de más de cien años. El proceso consistió en extraer textos de artículos estructurados de casi 138 millones de páginas, que abarcan todos los estados de EE.UU.

El conjunto de datos se refinó para asegurar que solo se incluyeran artículos de agencias de noticias, principalmente utilizando un clasificador de texto. Este método minimizó la inclusión de contenido no relacionado y aseguró que el conjunto de datos siguiera siendo útil para entrenar modelos de lenguaje.

Cada artículo dentro del conjunto resultante se presenta solo una vez, aunque algunos artículos pueden haber sido reproducidos varias veces. Quitar duplicados es esencial para el entrenamiento de modelos de lenguaje, ya que el contenido duplicado puede llevar a información repetida en los modelos.

La colección también incluye información geográfica que señala dónde fueron escritos los artículos, lo que puede enriquecer la data. Los investigadores etiquetaron los artículos con temas específicos e identificaron entidades nombradas, conectándolas a bases de datos ampliamente usadas como Wikipedia.

Características del conjunto de datos

El conjunto de datos incluye más que solo textos de artículos estructurados. Proporciona rica información contextual como:

  • El año en que se publicó el artículo.
  • Las fechas en que apareció el artículo.
  • El nombre del autor del artículo.
  • Los nombres de los periódicos que publicaron el artículo.
  • Etiquetas que indican los temas tratados, como política, crimen y derechos civiles.
  • Ubicaciones geográficas asociadas a los artículos.

Estos datos pueden iluminar los contextos sociales, políticos y económicos que influyeron en qué noticias se compartieron en varios lugares.

Disponibilidad de datos

El conjunto de datos está disponible para uso público bajo una licencia Creative Commons, lo que permite a los investigadores acceder y utilizar la información de forma flexible. Se puede encontrar en plataformas populares que apoyan el intercambio de datos, facilitando a los interesados la descarga y uso de la información en su propio trabajo.

Aplicaciones potenciales

El conjunto de datos puede beneficiar a una variedad de áreas de investigación. Historiadores y científicos sociales pueden analizar tendencias y eventos históricos a través de estos artículos. Los lingüistas pueden estudiar la evolución del lenguaje a lo largo del tiempo y las formas en que los contextos culturales influenciaron los estilos de escritura.

Además, los datos también son valiosos para entrenar modelos de lenguaje. Estas herramientas pueden ajustarse para reflejar el uso histórico del lenguaje, lo que podría llevar a resultados más matizados en futuras aplicaciones.

La naturaleza organizada del conjunto de datos, con sus etiquetas claras para varios temas y entidades, lo hace fácil de usar para investigadores que pueden no tener mucha experiencia técnica. Los investigadores pueden acceder a información estructurada que permite un análisis rápido sin requerir una extensa preparación de datos.

Desafíos en la creación de datos

Crear este conjunto de datos no fue fácil. Un gran problema fue lidiar con los errores que aparecieron durante el proceso de digitalización. El reconocimiento óptico de caracteres (OCR) a menudo leía mal los caracteres, lo que llevaba a inexactitudes en el texto. Estos errores eran comunes y necesitaban una combinación de revisión humana y correcciones automáticas para asegurar la calidad del texto.

Otro desafío fue asegurar que el contenido no relacionado, que podría distorsionar la integridad del conjunto de datos, se filtrara efectivamente. Esto implicó un proceso de clasificación sofisticado para mantener la utilidad del conjunto de datos para entrenar modelos de lenguaje.

Asegurando la calidad de los datos

La calidad del contenido fue primordial a lo largo del proceso. Los investigadores se aseguraron de incluir solo las mejores versiones disponibles de los artículos, eligiendo aquellas con menos errores. También implementaron sistemas para reducir la probabilidad de que datos ruidosos llegaran a la colección final.

Al utilizar métodos de alta calidad para detectar y corregir problemas, el equipo buscó proporcionar a los investigadores un recurso confiable para estudiar el pasado.

Usos más allá de la investigación

Más allá de la investigación académica, este conjunto de datos tiene aplicaciones potenciales en varios sectores. Por ejemplo, los educadores podrían usarlo como fuente principal para enseñar historia o estudios de medios. Escritores y creadores de contenido podrían basarse en los artículos para inspiración o contexto al discutir eventos históricos.

La estructura del conjunto de datos también podría apoyar aplicaciones tecnológicas modernas, como minería de datos y tareas de aprendizaje automático, donde entender las tendencias pasadas juega un papel crucial en el desarrollo de herramientas o estrategias futuras.

El contexto histórico de las noticias

El contenido de este conjunto de datos refleja el panorama histórico de EE.UU. desde 1878 hasta 1977. Los temas tratados en estos artículos brindan ideas sobre lo que la sociedad priorizaba durante diferentes períodos. Por ejemplo, los artículos de la época del movimiento por los derechos civiles muestran las normas sociales cambiantes y actitudes hacia la raza y la igualdad.

Los artículos también incluyen información sobre figuras clave, proporcionando contexto a sus roles en momentos cruciales de la historia. Esto lo convierte en un recurso valioso para cualquiera que busque entender el pasado en mayor profundidad.

Conclusión

Este conjunto de datos integral abre la puerta a muchas avenidas de exploración. Al hacer accesibles los artículos históricos de noticias, investigadores y el público pueden obtener una comprensión más profunda de un período significativo en la historia estadounidense.

Ya sea para investigación académica, uso educativo o para obtener conocimientos más amplios sobre la sociedad, esta colección de artículos sirve como una herramienta vital para examinar las complejidades del pasado y su impacto en el presente.

Direcciones futuras

A medida que la tecnología continúa avanzando, hay oportunidades para mejorar aún más el conjunto de datos. Los esfuerzos continuos podrían incluir mejorar la precisión de los artículos existentes, expandir el conjunto de datos para cubrir noticias más recientes (donde los derechos de autor lo permitan) o incorporar elementos multimedia como fotos o ilustraciones de los periódicos originales.

Los creadores del conjunto de datos están comprometidos a mantenerlo bien en el futuro, asegurando que siga siendo un recurso relevante para diversas audiencias.

Agradecimientos

El apoyo para la creación de este conjunto de datos provino de varias organizaciones, que proporcionaron recursos y financiamiento. La colaboración continua entre los investigadores ha allanado el camino para métodos innovadores en la recopilación y análisis de datos.

Este conjunto de datos es más que una colección de artículos; representa un legado histórico compartido. Sirve como un recordatorio del poder de la palabra escrita en la formación de la percepción pública y la comprensión de los eventos a lo largo de la historia.

Fuente original

Título: Newswire: A Large-Scale Structured Database of a Century of Historical News

Resumen: In the U.S. historically, local newspapers drew their content largely from newswires like the Associated Press. Historians argue that newswires played a pivotal role in creating a national identity and shared understanding of the world, but there is no comprehensive archive of the content sent over newswires. We reconstruct such an archive by applying a customized deep learning pipeline to hundreds of terabytes of raw image scans from thousands of local newspapers. The resulting dataset contains 2.7 million unique public domain U.S. newswire articles, written between 1878 and 1977. Locations in these articles are georeferenced, topics are tagged using customized neural topic classification, named entities are recognized, and individuals are disambiguated to Wikipedia using a novel entity disambiguation model. To construct the Newswire dataset, we first recognize newspaper layouts and transcribe around 138 millions structured article texts from raw image scans. We then use a customized neural bi-encoder model to de-duplicate reproduced articles, in the presence of considerable abridgement and noise, quantifying how widely each article was reproduced. A text classifier is used to ensure that we only include newswire articles, which historically are in the public domain. The structured data that accompany the texts provide rich information about the who (disambiguated individuals), what (topics), and where (georeferencing) of the news that millions of Americans read over the course of a century. We also include Library of Congress metadata information about the newspapers that ran the articles on their front pages. The Newswire dataset is useful both for large language modeling - expanding training data beyond what is available from modern web texts - and for studying a diversity of questions in computational linguistics, social science, and the digital humanities.

Autores: Emily Silcock, Abhishek Arora, Luca D'Amico-Wong, Melissa Dell

Última actualización: 2024-06-13 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2406.09490

Fuente PDF: https://arxiv.org/pdf/2406.09490

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares