Collegare intuizioni storiche con le notizie moderne
Uno strumento aiuta a collegare gli eventi attuali ai contesti storici.
― 9 leggere min
Indice
Gli scienziati sociali e il pubblico spesso guardano agli eventi attuali e cercano di collegarli a eventi storici. Questo può essere difficile perché ci sono così tanti testi storici che non sono ben organizzati. Per esempio, ci sono miliardi di pagine di vecchi giornali che sono state scansionate e trasformate in testo. I metodi tradizionali per cercare informazioni, come usare parole chiave, possono essere inaffidabili a causa del linguaggio complesso e degli errori di scansione.
È stato creato un nuovo strumento per aiutare con questo problema. Questo strumento utilizza modelli di linguaggio di grandi dimensioni e un metodo specifico per trovare articoli storici che sono simili a notizie moderne. Prima di tutto, identifica nomi importanti e li nasconde per mettere il focus su temi più ampi invece di individui o luoghi specifici. Poi, un modello speciale recupera articoli storici che si relazionano bene a una notizia attuale. Questo dimostra che eventi che sembrano nuovi oggi spesso hanno sfondi storici.
Lo strumento è progettato per gli scienziati sociali ed è facile da usare, rendendolo accessibile a chi potrebbe non sapere molto di deep learning. Può lavorare con grandi raccolte di testi e ci sono esempi del suo utilizzo su un sito specifico. Anche se è ancora necessaria una conoscenza esperta per trarre approfondimenti più profondi, questo strumento offre una forte opzione per esaminare le connessioni tra passato e presente.
“Chi non può ricordare il passato è condannato a ripeterlo.” - George Santayana
Gli scienziati sociali e il pubblico spesso sottolineano come il presente si colleghi a eventi passati. Tuttavia, trovare queste connessioni può essere un lavoro duro. Ci sono molti testi storici, ma sono spesso mal organizzati e sparsi tra grandi database. Ad esempio, centinaia di milioni di pagine di vecchi giornali sono accessibili online. La maggior parte delle persone utilizza ricerche per parole chiave per trovare documenti pertinenti, ma poiché il linguaggio può essere complicato e gli errori avvengono durante la scansione, questo metodo può spesso fallire.
Strumenti basati su modelli di linguaggio di grandi dimensioni offrono un nuovo modo di trovare materiali storici pertinenti per aiutare a capire gli eventi attuali. Questo studio si concentra sulla creazione di uno strumento che aiuta a identificare quali storie di notizie storiche sono le più vicine nel significato agli articoli di notizie moderni. Il modello prima identifica e nasconde nomi specifici in modo da poter evidenziare temi generali nelle storie. Poi usa un modello speciale e addestrato per trovare gli articoli storici più pertinenti.
Lo strumento permette agli scienziati sociali di eseguire le loro query. È open-source e può funzionare con qualsiasi dataset di testo adatto. È progettato per essere facile da usare per chi potrebbe non avere familiarità con il deep learning. Questo studio include codice che mostra come utilizzarlo con un grande dataset di articoli storici.
Gli utenti possono testare lo strumento con articoli moderni provenienti da stati selezionati utilizzando un sito demo. C'è anche un sito web dedicato dove gli articoli moderni sono abbinati a quelli storici per un'esplorazione più profonda.
Lo strumento identifica articoli con significati simili. Tuttavia, è importante notare che eventi molto diversi possono comunque essere descritti in modi simili sia nei media storici che moderni. Questo aspetto è probabilmente significativo per gli scienziati sociali, ma richiede che abbiano abbastanza conoscenza storica per collocare queste connessioni nel giusto contesto.
Attualmente, lo strumento supporta l'inglese, ma ci sono piani per creare versioni in altre lingue in futuro. Il resto di questo studio discute la letteratura pertinente, il modello e il processo di addestramento, e come utilizzare lo strumento.
Letteratura Correlata
È stata fatta molta ricerca sulla similarità semantica. La maggior parte dei grandi dataset in questo campo proviene da testi web. Un esempio è il Massive Text Embedding Benchmark (MTEB), che valuta molti compiti di embedding su numerosi dataset in diverse lingue.
Questo particolare studio è strettamente correlato ad altri che addestrano modelli per collegare articoli di notizie storiche a articoli moderni simili, concentrandosi su come vengono mappati a rappresentazioni simili. Lo strumento si basa su lavori precedenti nel recupero in dominio aperto e attinge a molti studi che mostrano i benefici dell'addestramento di modelli per scopi semantici.
Le sfide che sorgono nell'uso di modelli pre-addestrati di grandi dimensioni, come quelli di BERT, sono anche considerate. Questi modelli spesso faticano con parole meno comuni, portando a un problema in cui testi con significati simili possono essere disallineati. Applicando specifici metodi di addestramento, lo strumento migliora la qualità delle rappresentazioni di frasi o documenti.
Architettura e Addestramento del Modello
L'architettura dello strumento si concentra sull'identificazione e il mascheramento di nomi specifici nei testi. Mira a evidenziare somiglianze tra articoli che discutono argomenti diversi in vari periodi storici. Gli articoli pertinenti vengono selezionati in base a quanto sono simili nel significato, utilizzando un metodo che recupera gli articoli più vicini dal database scelto.
L'addestramento dello strumento ha coinvolto la raccolta di Dati da una selezione di articoli storici. Il modello iniziale doveva essere addestrato per riconoscere e mascherare accuratamente le Entità Nominate, anche con gli errori che possono verificarsi nei testi scansionati. Un gruppo ha lavorato rigorosamente su questo addestramento, garantendo che tutte le discrepanze venissero risolte attraverso un attento controllo.
Per costruire su questo, è stato addestrato un nuovo modello per collegare articoli di notizie moderne con articoli storici simili. Ha coinvolto la raccolta di dati da fonti diverse per garantire che venissero formate coppie pertinenti. Questo approccio ha permesso al modello di collegare efficacemente articoli storici e moderni su storie simili.
L'addestramento ha comportato la ricerca delle migliori impostazioni per il modello in modo che producesse risultati accurati. Il modello ha superato i modelli precedenti nella sua capacità di identificare termini importanti nei testi.
Lo strumento è progettato per gli utenti che vogliono esplorare testi storici senza dover eseguire compiti di programmazione complessi. Viene posto un forte accento per renderlo facilmente accessibile a chiunque sia interessato.
Il Pacchetto
Lo strumento può essere facilmente installato e utilizzato. Viene fornito con diverse funzioni principali, tra cui il download di dati, l'esecuzione di riconoscimento delle entità nominate (NER), la mascheratura dei testi, l'embedding e la ricerca di articoli vicini con argomenti simili.
Il pacchetto consente agli utenti di scaricare i dataset con cui vogliono lavorare. Ciò include il supporto per un'ampia gamma di articoli storici. Gli utenti possono decidere di scaricare una selezione di articoli da stati specifici o prendere l'intera raccolta.
Una volta scaricati gli articoli, gli utenti possono eseguire NER per identificare le entità nominate, che possono poi essere mascherate. I testi vengono quindi incorporati, consentendo una ricerca più facile. Infine, gli utenti possono recuperare gli articoli che sono più vicini nel significato a quelli di loro interesse.
Per coloro che desiderano ottimizzare il modello, vengono forniti suggerimenti su come farlo. Lo strumento si integra con piattaforme popolari, rendendo facile per gli utenti iniziare.
L'intero pacchetto è disponibile per il pubblico, garantendo che utenti accademici e non accademici possano accedere alle sue funzionalità. Sono inclusi tutorial per aiutare gli utenti a capire come utilizzare efficacemente lo strumento.
Rendendo questo strumento di ricerca semantica accessibile, l'obiettivo è supportare i ricercatori che vogliono comprendere meglio i contesti storici e come questi si relazionano alla società moderna.
Dichiarazione Etica
Lo strumento mira a recuperare eticamente articoli che hanno un linguaggio simile. Tuttavia, è fondamentale ricordare che un linguaggio simile non indica sempre eventi o situazioni simili. Pertanto, è necessaria una valutazione umana per trarre connessioni significative tra il passato e oggi.
È stata prestata particolare attenzione alle implicazioni etiche dell'operazione dello strumento, e mira a guidare i ricercatori verso contenuti che li interessano, incoraggiando al contempo un utilizzo riflessivo delle informazioni.
Molte persone hanno contribuito alla ricerca e allo sviluppo di questo strumento, fornendo un supporto prezioso durante tutto il processo.
Istruzioni per l'Annotatore NER
Durante il processo di etichettatura delle entità nominate, sono state sviluppate regole specifiche per garantire che le etichette venissero applicate in modo coerente. Queste regole aiutano a garantire un uso chiaro delle diverse categorie.
Intervallo delle Entità: Etichetta sempre il più grande intervallo che costituisce un'entità, tranne per i luoghi. Ad esempio, “Martin Luther King High School” dovrebbe essere etichettato come un'unica entità.
Nomi Multipli: Se un'entità ha parti diverse, etichettala insieme. Per esempio, “governo vietnamita” non dovrebbe essere etichettato solo come “vietnamita”.
Luogo e Organizzazione: Se un titolo si riferisce sia a una persona che a un luogo, etichettalo come tale. “Topeka, Kansas” sono due luoghi, non solo uno.
Contesto Appropriato: Etichetta solo ciò che è necessario senza includere parole extra a meno che non facciano parte dell'entità.
Ambiguità: Se c'è confusione su se qualcosa dovrebbe essere etichettato come un'organizzazione o un luogo, segui le linee guida standard che favoreggiano l'etichettatura come luogo.
Importante Contesto Storico: Le entità nominate devono sempre essere considerate nel contesto, e le etichette date dovrebbero riflettere accuratamente il significato storico dei termini usati.
Seguendo queste linee guida, il processo di identificazione e etichettatura delle entità nominate può rimanere coerente, rendendo lo strumento più efficace.
Esempi di Valutazione di Coppie di Articoli Storici-Moderni
Lo strumento è stato utilizzato per valutare coppie di articoli storici e moderni. Queste valutazioni includono l'identificazione di quali articoli si riferiscono agli stessi argomenti basati sul linguaggio e le idee principali.
Ad esempio, un articolo moderno che discuteva il gelato è stato abbinato a un articolo storico sui limiti di produzione di gelato durante la guerra. Entrambi gli articoli trattavano temi simili del gelato ma in contesti diversi.
Un altro esempio includeva un articolo attuale su un giorno promozionale di un'azienda, abbinato a un articolo storico sul gioco dell'uovo di Pasqua alla Casa Bianca. Gli aspetti tecnici delle celebrazioni stagionali in entrambi i pezzi evidenziano la tradizione e la sua evoluzione nel tempo.
Ogni esempio illustra come gli articoli moderni possano connettersi con pezzi storici su soggetti simili, rivelando schemi che arricchiscono la nostra comprensione delle tendenze sociali e della continuità storica.
In conclusione, questo strumento rappresenta un passo significativo per tracciare connessioni storiche con le notizie moderne. Fornendo una piattaforma utile per ricercatori e pubblico, può promuovere discussioni più ricche su come la storia possa informare la nostra comprensione del presente.
Titolo: News Deja Vu: Connecting Past and Present with Semantic Search
Estratto: Social scientists and the general public often analyze contemporary events by drawing parallels with the past, a process complicated by the vast, noisy, and unstructured nature of historical texts. For example, hundreds of millions of page scans from historical newspapers have been noisily transcribed. Traditional sparse methods for searching for relevant material in these vast corpora, e.g., with keywords, can be brittle given complex vocabularies and OCR noise. This study introduces News Deja Vu, a novel semantic search tool that leverages transformer large language models and a bi-encoder approach to identify historical news articles that are most similar to modern news queries. News Deja Vu first recognizes and masks entities, in order to focus on broader parallels rather than the specific named entities being discussed. Then, a contrastively trained, lightweight bi-encoder retrieves historical articles that are most similar semantically to a modern query, illustrating how phenomena that might seem unique to the present have varied historical precedents. Aimed at social scientists, the user-friendly News Deja Vu package is designed to be accessible for those who lack extensive familiarity with deep learning. It works with large text datasets, and we show how it can be deployed to a massive scale corpus of historical, open-source news articles. While human expertise remains important for drawing deeper insights, News Deja Vu provides a powerful tool for exploring parallels in how people have perceived past and present.
Autori: Brevin Franklin, Emily Silcock, Abhishek Arora, Tom Bryan, Melissa Dell
Ultimo aggiornamento: 2024-12-19 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2406.15593
Fonte PDF: https://arxiv.org/pdf/2406.15593
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://huggingface.co/spaces/dell-research-harvard/newsdejavu
- https://huggingface.co/datasets/dell-research-harvard/americanstories_masked_embeddings
- https://www.usatoday.com/story/money/food/2024/03/13/ben-jerrys-free-cone-day-2024/72944410007/