Archivio Storico di Notizie Completo
Un ricco insieme di dati con 2,7 milioni di articoli di notizie dal 1878 al 1977.
― 7 leggere min
Indice
In passato, i giornali locali negli Stati Uniti usavano agenzie di stampa come l'Associated Press per ottenere contenuti per le loro storie. Questo era importante per modellare un'identità nazionale fornendo una visione condivisa degli eventi. Tuttavia, non c'è mai stata una raccolta completa di Articoli inviati tramite queste agenzie. Questo progetto mira a creare una tale raccolta utilizzando tecnologie avanzate per elaborare un'enorme quantità di immagini di vecchi giornali.
Il risultato finale è un dataset di 2,7 milioni di articoli di notizie unici pubblicati tra il 1878 e il 1977, tutti di pubblico dominio. Questi articoli sono stati organizzati con dettagli su dove sono stati scritti, quali argomenti trattano e chi è menzionato in essi. Queste informazioni possono essere utili sia per comprendere la storia sia per addestrare modelli linguistici, usati in vari campi di ricerca tra cui linguistica e scienze sociali.
Il Bisogno di Dati Storici
Con le fonti attuali per addestrare modelli linguistici che diventano sempre più scarse, i ricercatori stanno guardando al passato per trovare informazioni preziose. I testi storici interessano sia gli studiosi che il pubblico generale, e renderli disponibili per l'analisi potrebbe portare a nuove intuizioni. Anche se molto materiale Storico è ora di pubblico dominio, accedere a questi testi può comunque essere una sfida. Spesso, richiedono metodi complessi per estrarre e organizzare le informazioni, sia per addestrare modelli che per condurre ricerche.
Gli articoli di notizie sono fondamentali per catturare la conoscenza storica. Le agenzie di stampa, come l'Associated Press e la United Press, erano tra le principali fonti di notizie negli Stati Uniti, specialmente quando mantenere una rete globale per le notizie era troppo costoso.
La storica dei media Julia Guarneri ha osservato che negli anni '10 e '20 del '900, molti articoli letti dagli americani erano collegati ai mercati delle notizie nazionali. Questo ha contribuito a modellare una comprensione comune della vita americana, influenzando la politica interna e le relazioni internazionali nel XX secolo.
Nonostante l'importanza di questo contenuto, non è stata ancora resa disponibile una raccolta completa degli articoli delle agenzie di stampa del XIX e XX secolo. Gli archivi esistenti tendono a concentrarsi su regioni o periodi specifici e spesso risultano carenti, poiché molti giornali non sono sopravvissuti.
Metodologia
Per colmare questa lacuna, i ricercatori hanno sviluppato un processo avanzato per ricostruire un archivio delle agenzie di stampa. Hanno iniziato con milioni di immagini scannerizzate da giornali locali nel corso di più di cento anni. Il processo ha comportato l'estrazione di testi di articoli strutturati da quasi 138 milioni di pagine, che coprono tutti gli stati americani.
Il dataset è stato raffinato per garantire che fossero inclusi solo articoli delle agenzie di stampa, principalmente usando un classificatore di testo. Questo metodo ha minimizzato l'inclusione di contenuti non collegati alle agenzie e ha garantito che il dataset rimanesse utile per l'addestramento di modelli linguistici.
Ogni articolo all'interno del dataset risultante è presentato solo una volta, anche se alcuni articoli potrebbero essere stati riprodotti più volte. Rimuovere i duplicati è essenziale per l'addestramento dei modelli linguistici, poiché contenuti duplicati possono portare a informazioni ripetute nei modelli.
La raccolta include anche informazioni geografiche che indicano dove sono stati scritti gli articoli, il che può arricchire ulteriormente i dati. I ricercatori hanno etichettato gli articoli con argomenti specifici e identificato entità nominate, collegandole a database ampiamente utilizzati come Wikipedia.
Caratteristiche del Dataset
Il dataset include più che solo testi di articoli strutturati. Fornisce informazioni contestuali ricche come:
- L'anno di Pubblicazione dell'articolo.
- Le date in cui è apparso l'articolo.
- La byline, ovvero l'autore dell'articolo.
- I nomi dei giornali che hanno pubblicato l'articolo.
- Etichette che indicano gli argomenti trattati, come politica, crimine e diritti civili.
- Luoghi geogarfici associati agli articoli.
Questi dati possono illuminare i contesti sociali, politici ed economici che hanno influenzato quali notizie venivano condivise in diverse località.
Disponibilità dei Dati
Il dataset è disponibile per uso pubblico sotto una licenza Creative Commons, che consente ai ricercatori di accedere e utilizzare le informazioni in modo flessibile. Può essere trovato su piattaforme popolari che supportano la condivisione di dati, rendendo facile per le parti interessate scaricare e utilizzare i dati nel proprio lavoro.
Potenziali Applicazioni
Il dataset può beneficiare una gamma di aree di ricerca. Storici e scienziati sociali possono analizzare tendenze storiche ed eventi attraverso la lente di questi articoli. I linguisti possono studiare l'evoluzione del linguaggio nel tempo e i modi in cui i contesti culturali hanno influenzato gli stili di scrittura.
Inoltre, i dati sono anche preziosi per addestrare modelli linguistici. Questi strumenti possono essere regolati per riflettere l'uso del linguaggio storico, portando a risultati potenzialmente più sfumati in future applicazioni.
La natura organizzata del dataset, con le sue etichette chiare per vari argomenti ed entità, lo rende user-friendly per i ricercatori che potrebbero non avere una profonda esperienza tecnica. I ricercatori possono accedere a informazioni strutturate che permettono un'analisi rapida senza richiedere un'ampia preprocessazione dei dati.
Sfide nella Creazione dei Dati
Creare questo dataset non è stato senza sfide. Un problema principale è stato gestire gli errori emersi durante il processo di digitalizzazione. Il riconoscimento ottico dei caratteri (OCR) spesso leggeva male i caratteri, portando a imprecisioni nel testo. Questi errori erano comuni e necessitavano di una combinazione di revisione umana e correzioni automatiche per garantire la qualità del testo.
Un'altra sfida è stata garantire che i contenuti non collegati alle agenzie, che potrebbero distorcere l'integrità del dataset, fossero filtrati in modo efficace. Questo ha comportato un processo di classificazione sofisticato per mantenere l'utilità del dataset per l'addestramento di modelli linguistici.
Garanzia della Qualità dei Dati
La qualità del contenuto è stata fondamentale durante tutto il processo. I ricercatori hanno fatto attenzione a includere solo le migliori versioni disponibili degli articoli, scegliendo quelle con meno errori. Hanno anche implementato sistemi per ridurre la probabilità che dati rumorosi entrassero nella raccolta finale.
Utilizzando metodi di alta qualità per rilevare e correggere problemi, il team ha mirato a fornire ai ricercatori una risorsa affidabile per studiare il passato.
Usos Oltre la Ricerca
Oltre agli scopi accademici, questo dataset ha potenziali applicazioni in vari settori. Ad esempio, gli educatori potrebbero usarlo come fonte primaria per insegnare storia o studi sui media. Scrittori e creatori di contenuti potrebbero attingere agli articoli per ispirazione o contesto quando discutono eventi storici.
La struttura del dataset potrebbe anche supportare applicazioni tecnologiche moderne, come il data mining e compiti di machine learning, dove comprendere le tendenze passate gioca un ruolo cruciale nello sviluppo di strumenti o strategie future.
Il Contesto Storico delle Notizie
Il contenuto di questo dataset riflette il panorama storico degli Stati Uniti dal 1878 al 1977. Gli argomenti trattati in questi articoli forniscono intuizioni su cosa la società prioritizzava durante periodi diversi. Ad esempio, gli articoli dell'epoca del movimento per i diritti civili mostrano le norme e gli atteggiamenti sociali in evoluzione riguardo alla razza e all'uguaglianza.
Gli articoli includono anche informazioni su figure chiave, fornendo un contesto ai loro ruoli in momenti cruciali della storia. Questo lo rende una risorsa preziosa per chiunque voglia comprendere il passato in modo più approfondito.
Conclusione
Questo dataset completo apre la porta a molte strade di esplorazione. Rendendo accessibili articoli di notizie storiche, ricercatori e pubblico possono ottenere una comprensione più profonda di un periodo significativo nella storia americana.
Che sia per la ricerca accademica, l'uso educativo o per intuizioni sociali più ampie, questa raccolta di articoli serve come uno strumento vitale per esaminare le complessità del passato e il suo impatto sul presente.
Direzioni Future
Con il continuo avanzamento della tecnologia, ci sono opportunità per migliorare ulteriormente il dataset. Gli sforzi futuri potrebbero includere il miglioramento dell'accuratezza degli articoli esistenti, l'espansione del dataset per coprire notizie più recenti (dove il copyright lo consente), o l'inserimento di elementi multimediali come fotografie o illustrazioni dai giornali originali.
I creatori del dataset sono impegnati a mantenerlo ben oltre il futuro, garantendo che rimanga una risorsa rilevante per vari pubblici.
Riconoscimenti
Il supporto per la creazione di questo dataset è venuto da varie organizzazioni, che hanno fornito risorse e finanziamenti. La continua collaborazione tra i ricercatori ha aperto la strada per metodi innovativi nella raccolta e analisi dei dati.
Questo dataset è più di una semplice raccolta di articoli; rappresenta un'eredità storica condivisa. Serve a ricordare il potere della parola scritta nel plasmare la percezione pubblica e la comprensione degli eventi nel corso della storia.
Titolo: Newswire: A Large-Scale Structured Database of a Century of Historical News
Estratto: In the U.S. historically, local newspapers drew their content largely from newswires like the Associated Press. Historians argue that newswires played a pivotal role in creating a national identity and shared understanding of the world, but there is no comprehensive archive of the content sent over newswires. We reconstruct such an archive by applying a customized deep learning pipeline to hundreds of terabytes of raw image scans from thousands of local newspapers. The resulting dataset contains 2.7 million unique public domain U.S. newswire articles, written between 1878 and 1977. Locations in these articles are georeferenced, topics are tagged using customized neural topic classification, named entities are recognized, and individuals are disambiguated to Wikipedia using a novel entity disambiguation model. To construct the Newswire dataset, we first recognize newspaper layouts and transcribe around 138 millions structured article texts from raw image scans. We then use a customized neural bi-encoder model to de-duplicate reproduced articles, in the presence of considerable abridgement and noise, quantifying how widely each article was reproduced. A text classifier is used to ensure that we only include newswire articles, which historically are in the public domain. The structured data that accompany the texts provide rich information about the who (disambiguated individuals), what (topics), and where (georeferencing) of the news that millions of Americans read over the course of a century. We also include Library of Congress metadata information about the newspapers that ran the articles on their front pages. The Newswire dataset is useful both for large language modeling - expanding training data beyond what is available from modern web texts - and for studying a diversity of questions in computational linguistics, social science, and the digital humanities.
Autori: Emily Silcock, Abhishek Arora, Luca D'Amico-Wong, Melissa Dell
Ultimo aggiornamento: 2024-06-13 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2406.09490
Fonte PDF: https://arxiv.org/pdf/2406.09490
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://huggingface.co/datasets/dell-research-harvard/newswire
- https://github.com/dell-research-harvard/newswire
- https://dumps.wikimedia.org/
- https://github.com/brawer/wikidata-qrank/tree/main
- https://huggingface.co/api/datasets/dell-research-harvard/newswire/croissant
- https://search.google.com/test/rich-results/result?id=_HKjxIv-LaF_8ElAarsM_g
- https://creativecommons.org/licenses/by/2.0/