Simple Science

Ciência de ponta explicada de forma simples

# Finanças Quantitativas# Computação e linguagem# Economia Geral# Economia

Arquivo Histórico de Notícias Completo

Um conjunto de dados rico com 2,7 milhões de artigos de notícias de 1878 a 1977.

― 9 min ler


Coleta de DadosColeta de DadosHistóricos de Notíciasnotícias dos EUA.Um arquivo enorme de artigos de
Índice

No passado, jornais locais nos EUA usavam agências de notícias como a Associated Press pra conseguir conteúdo pras suas matérias. Isso era importante pra moldar uma identidade nacional, oferecendo uma visão compartilhada dos eventos. Mas, até agora, não tinha uma coleção completa de Artigos enviados por essas agências. Esse projeto tem como objetivo criar essa coleção usando tecnologia avançada pra processar uma quantidade enorme de imagens de jornais antigos.

O resultado final é um conjunto de dados com 2,7 milhões de artigos de notícias únicos publicados entre 1878 e 1977, todos em domínio público. Esses artigos foram organizados com detalhes sobre onde foram escritos, quais tópicos abordam e quem é mencionado neles. Essas informações podem ser úteis tanto pra entender a história quanto pra treinar modelos de linguagem, que são usados em várias áreas de pesquisa, incluindo linguística e ciências sociais.

A Necessidade de Dados Históricos

À medida que as fontes atuais pra treinar modelos de linguagem vão diminuindo, pesquisadores estão olhando pro passado em busca de informações valiosas. Textos históricos interessam tanto acadêmicos quanto o público em geral, e disponibilizá-los pra análise pode levar a novas descobertas. Embora muito material histórico já esteja em domínio público, acessar esses textos ainda pode ser um desafio. Muitas vezes, eles exigem métodos complexos pra extrair e organizar as informações, seja pra treinar modelos ou conduzir pesquisas.

Artigos de notícias são cruciais pra capturar o conhecimento histórico. As agências de notícias, como a Associated Press e a United Press, foram algumas das principais fontes de notícias nos EUA, especialmente quando manter uma rede global de notícias era muito caro.

A historiadora dos meios de comunicação Julia Guarneri notou que, nas décadas de 1910 e 1920, muitos artigos que os americanos liam estavam ligados aos mercados de notícias nacionais. Isso ajudou a moldar uma compreensão comum da vida americana, influenciando a política doméstica e as relações internacionais no século 20.

Apesar da importância desse conteúdo, um conjunto abrangente de dados dos artigos das agências de notícias dos séculos 19 e 20 não foi disponibilizado. Arquivos existentes tendem a focar em regiões ou períodos específicos e frequentemente ficam aquém, já que muitos jornais não sobreviveram.

Metodologia

Pra preencher essa lacuna, pesquisadores desenvolveram um processo avançado pra reconstruir um arquivo de agências de notícias. Eles começaram com milhões de imagens escaneadas de jornais locais ao longo de mais de cem anos. O processo envolveu extrair textos de artigos estruturados de quase 138 milhões de páginas, que abrangem todos os estados dos EUA.

O conjunto de dados foi refinado pra garantir que apenas artigos de agências de notícias fossem incluídos, principalmente usando um classificador de texto. Esse método minimizou a inclusão de conteúdo que não era de agências e garantiu que o conjunto de dados permanecesse útil pra treinar modelos de linguagem.

Cada artigo dentro do conjunto de dados resultante é apresentado apenas uma vez, mesmo que alguns artigos possam ter sido reproduzidos várias vezes. Remover duplicatas é essencial pra treinar modelos de linguagem, já que conteúdo duplicado pode levar a informações repetidas nos modelos.

A coleção também inclui informações geográficas que apontam onde os artigos foram escritos, o que pode enriquecer ainda mais os dados. Os pesquisadores marcaram os artigos com tópicos específicos e identificaram entidades nomeadas, conectando-os a bancos de dados amplamente usados, como a Wikipedia.

Características do Conjunto de Dados

O conjunto de dados inclui mais do que textos de artigos estruturados. Ele fornece informações contextuais ricas, como:

  • O ano em que o artigo foi publicado.
  • As datas em que o artigo apareceu.
  • O crédito, ou o autor do artigo.
  • Os nomes dos jornais que publicaram o artigo.
  • Tags indicando os tópicos abordados, como política, crime e direitos civis.
  • Localizações geográficas associadas aos artigos.

Esses dados podem iluminar os contextos sociais, políticos e econômicos que influenciaram quais notícias foram compartilhadas em vários locais.

Disponibilidade dos Dados

O conjunto de dados está disponível pra uso público sob uma licença Creative Commons, que permite que pesquisadores acessem e utilizem as informações de maneira flexível. Ele pode ser encontrado em plataformas populares que suportam compartilhamento de dados, facilitando pra interessados baixarem e usarem os dados no seu próprio trabalho.

Aplicações Potenciais

O conjunto de dados pode beneficiar uma variedade de áreas de pesquisa. Historiadores e cientistas sociais podem analisar tendências e eventos históricos através da lente desses artigos. Linguistas podem estudar a evolução da linguagem ao longo do tempo e as formas como contextos culturais influenciaram estilos de escrita.

Além disso, os dados também são valiosos pra treinar modelos de linguagem. Essas ferramentas podem ser ajustadas pra refletir o uso histórico da linguagem, potencialmente levando a resultados mais nuançados em futuras aplicações.

A natureza organizada do conjunto de dados, com suas tags claras pra vários tópicos e entidades, torna-o amigável pra pesquisadores que podem não ter uma expertise técnica profunda. Pesquisadores podem acessar informações estruturadas que permitem uma análise rápida sem exigir um processamento extensivo de dados.

Desafios na Criação dos Dados

Criar esse conjunto de dados não foi fácil. Um grande problema foi lidar com erros que surgiram durante o processo de digitalização. O reconhecimento óptico de caracteres (OCR) frequentemente leu os caracteres de forma errada, levando a imprecisões no texto. Esses erros eram comuns e precisaram de uma combinação de revisão humana e correções automáticas pra garantir a qualidade do texto.

Outro desafio foi garantir que o conteúdo que não era de agências, que poderia distorcer a integridade do conjunto de dados, fosse filtrado de forma eficaz. Isso envolveu um processo de classificação sofisticado pra manter a utilidade do conjunto de dados pra treinar modelos de linguagem.

Garantindo a Qualidade dos Dados

A qualidade do conteúdo foi primordial durante todo o processo. Os pesquisadores se preocuparam em incluir apenas as melhores versões disponíveis dos artigos, optando por aquelas com menos erros. Eles também implementaram sistemas pra reduzir a probabilidade de dados ruidosos entrarem na coleção final.

Usando métodos de alta qualidade pra detectar e corrigir problemas, a equipe buscou fornecer aos pesquisadores um recurso confiável pra estudar o passado.

Usos Além da Pesquisa

Além de propósitos acadêmicos, esse conjunto de dados tem aplicações potenciais em vários setores. Por exemplo, educadores poderiam usá-lo como fonte primária pra ensinar história ou estudos de mídia. Escritores e criadores de conteúdo poderiam se inspirar nos artigos ou usar contexto ao discutir eventos históricos.

A estrutura do conjunto de dados também poderia apoiar aplicações de tecnologia moderna, como mineração de dados e tarefas de aprendizado de máquina, onde entender tendências passadas desempenha um papel crucial na criação de ferramentas ou estratégias futuras.

O Contexto Histórico das Notícias

O conteúdo desse conjunto de dados reflete a paisagem histórica dos EUA de 1878 a 1977. Os tópicos abordados nesses artigos fornecem insights sobre o que a sociedade priorizou durante diferentes períodos. Por exemplo, artigos da época do movimento pelos direitos civis mostram as normas sociais em mudança e as atitudes em relação à raça e igualdade.

Os artigos também incluem informações sobre figuras-chave, fornecendo contexto para seus papéis em momentos decisivos da história. Isso torna um recurso valioso pra quem quer entender o passado com mais profundidade.

Conclusão

Esse conjunto de dados abrangente abre as portas pra muitas avenidas de exploração. Ao tornar artigos de notícias históricos acessíveis, pesquisadores e o público podem ter uma compreensão mais profunda de um período significativo da história americana.

Seja pra pesquisa acadêmica, uso educacional ou insights sociais mais amplos, essa coleção de artigos serve como uma ferramenta vital pra examinar as complexidades do passado e seu impacto no presente.

Direções Futuras

À medida que a tecnologia continua a avançar, há oportunidades pra melhorar ainda mais o conjunto de dados. Esforços contínuos poderiam incluir aumentar a precisão dos artigos existentes, expandir o conjunto de dados pra cobrir notícias mais recentes (onde os direitos autorais permitirem) ou incorporar elementos multimídia como fotografias ou ilustrações dos jornais originais.

Os criadores do conjunto de dados estão comprometidos em mantê-lo bem no futuro, garantindo que continue sendo um recurso relevante pra várias audiências.

Agradecimentos

O suporte pra criação desse conjunto de dados veio de várias organizações, que forneceram recursos e financiamento. A colaboração contínua entre os pesquisadores abriu caminho pra métodos inovadores na coleta e análise de dados.

Esse conjunto de dados é mais do que apenas uma coleção de artigos; ele representa um legado histórico compartilhado. Serve como um lembrete do poder da palavra escrita em moldar a percepção pública e a compreensão dos eventos ao longo da história.

Fonte original

Título: Newswire: A Large-Scale Structured Database of a Century of Historical News

Resumo: In the U.S. historically, local newspapers drew their content largely from newswires like the Associated Press. Historians argue that newswires played a pivotal role in creating a national identity and shared understanding of the world, but there is no comprehensive archive of the content sent over newswires. We reconstruct such an archive by applying a customized deep learning pipeline to hundreds of terabytes of raw image scans from thousands of local newspapers. The resulting dataset contains 2.7 million unique public domain U.S. newswire articles, written between 1878 and 1977. Locations in these articles are georeferenced, topics are tagged using customized neural topic classification, named entities are recognized, and individuals are disambiguated to Wikipedia using a novel entity disambiguation model. To construct the Newswire dataset, we first recognize newspaper layouts and transcribe around 138 millions structured article texts from raw image scans. We then use a customized neural bi-encoder model to de-duplicate reproduced articles, in the presence of considerable abridgement and noise, quantifying how widely each article was reproduced. A text classifier is used to ensure that we only include newswire articles, which historically are in the public domain. The structured data that accompany the texts provide rich information about the who (disambiguated individuals), what (topics), and where (georeferencing) of the news that millions of Americans read over the course of a century. We also include Library of Congress metadata information about the newspapers that ran the articles on their front pages. The Newswire dataset is useful both for large language modeling - expanding training data beyond what is available from modern web texts - and for studying a diversity of questions in computational linguistics, social science, and the digital humanities.

Autores: Emily Silcock, Abhishek Arora, Luca D'Amico-Wong, Melissa Dell

Última atualização: 2024-06-13 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.09490

Fonte PDF: https://arxiv.org/pdf/2406.09490

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes