O Conjunto de Dados de Histórias Americanas: Um Recurso Histórico
Um rico conjunto de dados de jornais americanos históricos para pesquisa e análise.
― 6 min ler
Índice
O conjunto de dados American Stories é uma coletânea de textos digitalizados de Jornais antigos dos EUA. Os pesquisadores criaram isso pra entender melhor a história e a cultura americana. Jornais antigos são valiosos porque cobrem muitos assuntos: política, vida cotidiana e eventos comunitários. Mas muitas bases de dados de jornais existentes têm problemas, como textos bagunçados e scans de baixa Qualidade. Esse conjunto de dados visa resolver essas questões.
Importância dos Jornais
Jornais do passado guardam uma riqueza de informações sobre comunidades e seus moradores. Eles podem dar insights sobre mudanças sociais, eventos políticos e identidade cultural. Apesar do seu valor, muitos Conjuntos de dados de jornais históricos não são fáceis de lidar. Eles costumam ser confusos e não muito confiáveis pra análises modernas.
Chronicling America
A principal fonte pra esse conjunto de dados é o projeto Chronicling America, que inclui cerca de 20 milhões de scans de jornais. A maior parte desse conteúdo está disponível gratuitamente pro público, já que tem mais de 95 anos. Embora esse projeto tenha muita informação, o layout costuma misturar diferentes tipos de conteúdo, como artigos, anúncios e imagens. A tecnologia de reconhecimento de texto usada pra esses scans muitas vezes não é precisa.
Lidando com Limitações
Pra superar esses problemas, um novo sistema foi desenvolvido pra extrair textos claros dos jornais, enquanto também identifica o layout das páginas. Esse sistema consegue localizar artigos, manchetes e outros componentes de forma eficiente. Ele inclui várias etapas pra garantir a qualidade do resultado. O conjunto de dados final produziu textos de alta qualidade que podem ajudar no treinamento de modelos de linguagem, permitindo uma melhor análise de tópicos históricos.
O Pipeline
O novo sistema de extração tem quatro etapas principais: detecção de layout, classificação de legibilidade, Reconhecimento Óptico de Caracteres (OCR) e associação de conteúdo. Vamos quebrar cada uma dessas etapas.
Detecção de Layout
A primeira etapa é a detecção de layout, onde o sistema identifica e marca os diferentes componentes das páginas dos jornais. Isso é feito usando métodos de detecção de objetos que prevêm onde os artigos, manchetes e outras áreas de conteúdo estão localizadas na página. O layout ajuda a organizar o texto corretamente.
Classificação de Legibilidade
Depois, o sistema verifica se o texto está claro o suficiente pra ler. Ele classifica cada região de texto como legível, ilegível ou em uma situação limite. Isso ajuda a evitar o uso de qualquer texto confuso na análise, garantindo que só conteúdo de alta qualidade seja incluído no conjunto de dados.
Reconhecimento Óptico de Caracteres (OCR)
Uma vez que o layout é identificado e a legibilidade do texto é avaliada, a tecnologia OCR é utilizada. OCR converte as imagens de texto em texto real que pode ser usado pra análise. O sistema foi projetado pra funcionar de forma eficaz mesmo sob limitações de orçamento, garantindo que seja acessível a quem quer digitalizar documentos históricos.
Associação de Conteúdo
A etapa final envolve conectar os componentes identificados. Por exemplo, o sistema associa uma manchete com seu artigo correspondente. Isso ajuda a organizar os dados em um formato estruturado, facilitando a busca e análise.
Visão Geral do Conjunto de Dados
O conjunto de dados resultante desse processo é extenso, contendo mais de 1,14 bilhão de regiões de conteúdo, cobrindo todos os estados e datando desde o século 17, embora a maior parte do conteúdo seja do início do século 20. Ele permite que os pesquisadores estudem uma ampla gama de tópicos usando uma fonte confiável de informações históricas.
Qualidade dos Dados
A qualidade do conjunto de dados é essencial pra sua utilidade. Testes mostram que o pipeline de extração produz resultados precisos. Os textos podem ser usados pra treinar modelos de linguagem, o que pode ajudar a entender melhor a linguagem e o conhecimento do mundo históricos.
Aplicações do Conjunto de Dados
O conjunto de dados American Stories tem muitas aplicações potenciais. Pode ser usado em modelagem de linguagem, classificação de tópicos e até mesmo pra estudar como a linguagem mudou ao longo do tempo. Pesquisadores também podem explorar questões de ciências sociais analisando os textos históricos.
Modelagem de Linguagem
O conjunto de dados é grande o suficiente pra ajudar a treinar modelos de linguagem sobre como o inglês era usado no passado. Isso pode levar a uma melhor compreensão dos contextos históricos e melhorar tarefas modernas de processamento de linguagem.
Classificação de Tópicos
Usando o conjunto de dados, os pesquisadores podem identificar os principais tópicos nos jornais históricos. Isso pode ser particularmente valioso pra entender discussões políticas ou eventos comunitários da época.
Entendendo Mudanças Semânticas
Os pesquisadores podem estudar como a linguagem e os significados evoluíram ao longo do tempo usando esse conjunto de dados. Isso dá insights sobre mudanças culturais e perspectivas que foram se alterando na sociedade.
Aplicações Multimodais
O conjunto de dados também pode ser usado pra aplicações multimodais, que envolvem analisar texto e imagens juntos. Isso pode ajudar a criar novos métodos pra analisar documentos históricos e compilar conjuntos de dados abrangentes.
Limitações do Conjunto de Dados
Embora o conjunto de dados American Stories forneça muitas informações valiosas, existem algumas limitações. Os textos refletem a linguagem, atitudes e valores da época. Isso significa que algum conteúdo pode não se alinhar com as sensibilidades modernas. Os usuários devem estar cientes disso ao analisar os dados.
Recomendações de Uso
Dadas essas limitações, o conjunto de dados não é ideal pra tarefas que exigem textos limpos e filtrados. Em vez disso, é melhor pra projetos que querem explorar contextos históricos, tendências sociais ou mudanças linguísticas. Pesquisadores devem considerar a natureza dos textos e evitar usá-los pra tarefas de linguagem generativa sem filtragem adequada.
Conclusão
O conjunto de dados American Stories é um recurso crucial pra quem tá interessado em pesquisa histórica. Ao tornar dados extensos acessíveis e compreensíveis, ele abre portas pra numerosos estudos em história, cultura e linguagem. A natureza estruturada desse conjunto de dados, combinada com métodos de extração de alta qualidade, permite uma ampla gama de aplicações, tornando-se uma ferramenta essencial pra pesquisadores e acadêmicos.
Título: American Stories: A Large-Scale Structured Text Dataset of Historical U.S. Newspapers
Resumo: Existing full text datasets of U.S. public domain newspapers do not recognize the often complex layouts of newspaper scans, and as a result the digitized content scrambles texts from articles, headlines, captions, advertisements, and other layout regions. OCR quality can also be low. This study develops a novel, deep learning pipeline for extracting full article texts from newspaper images and applies it to the nearly 20 million scans in Library of Congress's public domain Chronicling America collection. The pipeline includes layout detection, legibility classification, custom OCR, and association of article texts spanning multiple bounding boxes. To achieve high scalability, it is built with efficient architectures designed for mobile phones. The resulting American Stories dataset provides high quality data that could be used for pre-training a large language model to achieve better understanding of historical English and historical world knowledge. The dataset could also be added to the external database of a retrieval-augmented language model to make historical information - ranging from interpretations of political events to minutiae about the lives of people's ancestors - more widely accessible. Furthermore, structured article texts facilitate using transformer-based methods for popular social science applications like topic classification, detection of reproduced content, and news story clustering. Finally, American Stories provides a massive silver quality dataset for innovating multimodal layout analysis models and other multimodal applications.
Autores: Melissa Dell, Jacob Carlson, Tom Bryan, Emily Silcock, Abhishek Arora, Zejiang Shen, Luca D'Amico-Wong, Quan Le, Pablo Querubin, Leander Heldring
Última atualização: 2023-08-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.12477
Fonte PDF: https://arxiv.org/pdf/2308.12477
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://huggingface.co/datasets/dell-research-harvard/AmericanStories
- https://github.com/dell-research-harvard/AmericanStories
- https://www.figma.com/file/l82FtCw6iPWaSZfwQrF0GE/MD%2FArchived%2FFunding?type=design&t=f0AtPrSFV9CzLaDr-0
- https://search.google.com/test/rich-results/result?id=esZkoGgfOsLlnkrvwx9nSQ
- https://huggingface.co/datasets/dell-research-harvard/AmericanStoriesTraining
- https://chroniclingamerica.loc.gov/
- https://doi.org/10.57967/hf/0757
- https://creativecommons.org/licenses/by/2.0/