Simple Science

Scienza all'avanguardia spiegata semplicemente

# Finanza quantitativa# Calcolo e linguaggio# Visione artificiale e riconoscimento di modelli# Economia generale# Economia

Il Dataset delle Storie Americane: Una Risorsa Storica

Un ricco dataset di giornali americani storici per ricerca e analisi.

― 5 leggere min


Dataset Storico delleDataset Storico delleStorie Americanegiornali storici americani.Risorsa fondamentale per studiare i
Indice

Il dataset delle Storie Americane è una raccolta di testi digitalizzati da vecchi Giornali americani. I ricercatori lo hanno creato per capire meglio la storia e la cultura americana. I vecchi giornali sono preziosi perché coprono molti argomenti: politica, vita quotidiana e eventi della comunità. Tuttavia, molti dataset di giornali esistenti hanno problemi, come testi confusi e scansioni di bassa Qualità. Questo dataset mira a risolvere questi problemi.

Importanza dei Giornali

I giornali del passato contengono un sacco di informazioni sulle comunità e i loro abitanti. Possono dare uno sguardo sui cambiamenti sociali, eventi politici e identità culturale. Nonostante il loro valore, molti dataset storici di giornali non sono facili da usare. Spesso sono disordinati e non molto affidabili per un’analisi moderna.

Chronicling America

La principale fonte di questo dataset è il progetto Chronicling America, che include circa 20 milioni di scansioni di giornali. La maggior parte di questo contenuto è disponibile gratuitamente al pubblico, poiché ha più di 95 anni. Anche se questo progetto contiene molte informazioni, il suo layout spesso mescola diversi tipi di contenuti, come articoli, pubblicità e immagini. La tecnologia di riconoscimento del testo utilizzata per queste scansioni non è sempre accurata.

Affrontare i Limiti

Per superare questi problemi, è stato sviluppato un nuovo sistema per estrarre testi chiari dai giornali, identificando anche il layout delle pagine. Questo sistema può localizzare articoli, titoli e altri componenti in modo efficace. Include diversi passaggi per garantire la qualità dell’output. Il dataset finale ha prodotto testi di alta qualità che possono aiutare a addestrare modelli di linguaggio, consentendo un’analisi migliore degli argomenti storici.

Il Processo

Il nuovo sistema di estrazione ha quattro passaggi principali: rilevamento del layout, classificazione della leggibilità, Riconoscimento Ottico dei Caratteri (OCR) e associazione dei contenuti. Vediamo un po' ciascuno di questi passaggi.

Rilevamento del Layout

Il primo passaggio è il rilevamento del layout, dove il sistema identifica e segna i diversi componenti delle pagine dei giornali. Questo avviene usando metodi di rilevamento degli oggetti che prevedono dove si trovano articoli, titoli e altre aree di contenuto sulla pagina. Il layout aiuta a organizzare il testo correttamente.

Classificazione della Leggibilità

Poi, il sistema verifica se il testo è abbastanza chiaro per essere letto. Classifica ciascuna area di testo come leggibile, illeggibile o borderline. Questo aiuta a evitare di usare testi poco chiari nell’analisi, assicurando che nel dataset ci sia solo contenuto di alta qualità.

Riconoscimento Ottico dei Caratteri (OCR)

Una volta identificato il layout e valutata la leggibilità del testo, si utilizza la tecnologia OCR. L’OCR converte le immagini di testo in testo reale che può essere usato per l’analisi. Il sistema è stato progettato per funzionare in modo efficace anche sotto vincoli di budget, garantendo che sia accessibile a chiunque voglia digitalizzare documenti storici.

Associazione dei Contenuti

L’ultimo passaggio consiste nel connettere i componenti identificati. Per esempio, il sistema associa un titolo al suo articolo corrispondente. Questo aiuta a organizzare i dati in un formato strutturato, facilitando la ricerca e l’analisi.

Panoramica del Dataset

Il dataset risultante da questo processo è vasto, contenendo oltre 1,14 miliardi di aree di contenuto, coprendo tutti gli stati e risalendo al XVII secolo, anche se la maggior parte del contenuto è del primo XX secolo. Permette ai ricercatori di studiare un'ampia gamma di argomenti usando una fonte affidabile di informazioni storiche.

Qualità dei Dati

La qualità del dataset è fondamentale per la sua utilità. I test mostrano che il processo di estrazione produce risultati accurati. I testi possono essere usati per addestrare modelli di linguaggio, il che può aiutare a comprendere meglio la lingua storica e la conoscenza del mondo.

Applicazioni del Dataset

Il dataset delle Storie Americane ha molte applicazioni potenziali. Può essere usato per modellizzazione linguistica, classificazione degli argomenti e persino per studiare come la lingua sia cambiata nel tempo. I ricercatori possono anche esplorare questioni di scienze sociali analizzando i testi storici.

Modellizzazione Linguistica

Il dataset è abbastanza ampio da aiutare a addestrare modelli di linguaggio su come l'inglese veniva usato in passato. Questo può portare a una migliore comprensione dei contesti storici e migliorare i compiti moderni di elaborazione del linguaggio.

Classificazione degli Argomenti

Utilizzando il dataset, i ricercatori possono identificare i temi principali nei giornali storici. Questo può essere particolarmente prezioso per capire le discussioni politiche o gli eventi della comunità dell’epoca.

Comprendere il Cambiamento Semantico

I ricercatori possono studiare come la lingua e i significati siano evoluti nel tempo usando questo dataset. Questo fornisce spunti sui cambiamenti culturali e le prospettive in evoluzione nella società.

Applicazioni Multimodali

Il dataset può anche essere usato per applicazioni multimodali, che coinvolgono l'analisi di testo e immagini insieme. Questo può aiutare a creare nuovi metodi per analizzare documenti storici e compilare dataset comprensivi.

Limiti del Dataset

Anche se il dataset delle Storie Americane fornisce molte informazioni preziose, ci sono alcuni limiti. I testi riflettono la lingua, gli atteggiamenti e i valori del loro tempo. Questo significa che alcuni contenuti potrebbero non allinearsi con le sensibilità moderne. Gli utenti dovrebbero esserne consapevoli quando analizzano i dati.

Raccomandazioni per l'Utilizzo

Data questi limiti, il dataset non è ideale per compiti che richiedono testi puliti e filtrati. È meglio per progetti che cercano di esplorare contesti storici, tendenze sociali o cambiamenti linguistici. I ricercatori dovrebbero considerare la natura dei testi e evitare di usarli per compiti generativi di linguaggio senza un'adeguata filtrazione.

Conclusione

Il dataset delle Storie Americane è una risorsa cruciale per chiunque sia interessato alla ricerca storica. Rendendo ampi dati accessibili e comprensibili, apre porte a numerosi studi in storia, cultura e linguaggio. La natura strutturata di questo dataset, combinata con metodi di estrazione di alta qualità, consente una vasta gamma di applicazioni, rendendolo uno strumento essenziale per ricercatori e studiosi.

Fonte originale

Titolo: American Stories: A Large-Scale Structured Text Dataset of Historical U.S. Newspapers

Estratto: Existing full text datasets of U.S. public domain newspapers do not recognize the often complex layouts of newspaper scans, and as a result the digitized content scrambles texts from articles, headlines, captions, advertisements, and other layout regions. OCR quality can also be low. This study develops a novel, deep learning pipeline for extracting full article texts from newspaper images and applies it to the nearly 20 million scans in Library of Congress's public domain Chronicling America collection. The pipeline includes layout detection, legibility classification, custom OCR, and association of article texts spanning multiple bounding boxes. To achieve high scalability, it is built with efficient architectures designed for mobile phones. The resulting American Stories dataset provides high quality data that could be used for pre-training a large language model to achieve better understanding of historical English and historical world knowledge. The dataset could also be added to the external database of a retrieval-augmented language model to make historical information - ranging from interpretations of political events to minutiae about the lives of people's ancestors - more widely accessible. Furthermore, structured article texts facilitate using transformer-based methods for popular social science applications like topic classification, detection of reproduced content, and news story clustering. Finally, American Stories provides a massive silver quality dataset for innovating multimodal layout analysis models and other multimodal applications.

Autori: Melissa Dell, Jacob Carlson, Tom Bryan, Emily Silcock, Abhishek Arora, Zejiang Shen, Luca D'Amico-Wong, Quan Le, Pablo Querubin, Leander Heldring

Ultimo aggiornamento: 2023-08-23 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2308.12477

Fonte PDF: https://arxiv.org/pdf/2308.12477

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili