Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Sfruttare i giornali storici per i modelli di QA moderni

Il dataset ChroniclingAmericaQA migliora il question answering usando testi di giornali storici.

― 8 leggere min


Dati storici per iDati storici per imodelli QAmigliorare le risposte alle domande.Utilizzare vecchi giornali per
Indice

L'answering alle domande (QA) e la comprensione della lettura da parte delle macchine (MRC) sono diventati campi importanti nella tecnologia, soprattutto con l'aumento dei modelli informatici avanzati. Questi modelli possono leggere testi e rispondere a domande basate su di essi. Negli ultimi anni, sono stati creati molti grandi dataset per aiutare a addestrare questi modelli. Tuttavia, la maggior parte di questi dataset proviene da fonti moderne come Wikipedia o articoli online. Ci sono collezioni storiche ricche, come i vecchi giornali, che hanno informazioni utili ma non vengono spesso utilizzate per addestrare questi modelli.

Per affrontare questa lacuna, è stato creato un nuovo dataset chiamato ChroniclingAmericaQA. Questo dataset contiene 485.000 coppie di domande e risposte tratte da una collezione di giornali storici americani. Questi giornali sono stati pubblicati in un periodo di 120 anni, che è un lasso di tempo molto più lungo rispetto ad altri dataset disponibili. Una delle principali sfide nel lavorare con i vecchi giornali è che il testo generato dalla Riconoscimento Ottico dei Caratteri (OCR) può a volte essere di qualità piuttosto scadente. Per garantire che i modelli siano testati in modo efficace, il dataset consente di rispondere a domande basate su tre tipi di contenuti: testo grezzo che è rumoroso, testo corretto che è stato migliorato per qualità e immagini scansionate dei giornali.

L'importanza dei giornali storici

I giornali storici forniscono una preziosa finestra sul passato. Catturano eventi, culture e atteggiamenti sociali da diversi periodi. Questo li rende una risorsa unica per capire la storia. Tuttavia, usarli per compiti di QA può essere complicato. La lingua di questi vecchi giornali è spesso diversa dalla lingua di oggi. Questo solleva interrogativi su se i modelli moderni addestrati su testi attuali possano comprendere ed elaborare efficacemente questi documenti storici.

Inoltre, molti di questi vecchi giornali sono disponibili solo in forma scansionata, e la qualità del testo OCR può variare notevolmente. Questo aggiunge complessità, poiché un testo incoerente può portare a sfide nell'estrarre informazioni con precisione. Creando un dataset su misura, c'è l'opportunità di migliorare la ricerca in QA permettendo ai modelli di essere testati contro questi testi unici e impegnativi.

Creazione del dataset

Raccolta Dati

Il primo passo per costruire il dataset ChroniclingAmericaQA è stata la raccolta delle pagine dei giornali. La fonte per questo dataset era una collezione di pubblica proprietà di giornali storici americani chiamata Chronicling America. Questa collezione contiene oltre 21 milioni di pagine di giornali pubblicati tra il 1756 e il 1963.

Data l'ampia gamma di contenuti, sarebbe stato impraticabile raccogliere e elaborare manualmente tutte le pagine disponibili. Invece, è stato utilizzato un processo di selezione. Un totale di 100 pagine di giornali sono state scelte casualmente da ciascun decennio tra il 1800 e il 1920 in tutti i 53 stati degli Stati Uniti. Questo ha portato a una collezione di oltre 39.000 pagine, fornendo una rappresentazione diversificata del contesto storico.

Preparazione Dati

Dopo la raccolta delle pagine dei giornali, il passo successivo è stato preparare i dati per la generazione delle domande. Il testo originale dell'OCR conteneva spesso errori e imprecisioni. Se lasciato non corretto, questo testo rumoroso non avrebbe fornito risposte precise o accurate.

Per migliorare la qualità del testo OCR, sono state utilizzate recenti avanzamenti tecnologici. Sono stati utilizzati Grandi Modelli Linguistici (LLMs) per correggere automaticamente errori di ortografia e grammaticali nel testo. In particolare, è stato utilizzato il modello GPT 3.5 Turbo per questo scopo. Il testo grezzo è stato suddiviso in paragrafi più piccoli, rendendo più facile gestirlo ed elaborarlo. Il modello GPT è riuscito a correggere una parte significativa del testo, risultando in una versione più pulita e affidabile per la generazione delle domande.

Generazione delle Domande

L'ultimo passo nella creazione del dataset ha comportato la Generazione di domande dai paragrafi rivisitati. A questo scopo, è stato utilizzato un modello noto come T5-base. Questo modello è specificamente progettato per generare domande ed è stato affinato basandosi su un dataset ben noto chiamato SQuAD.

Il modello ha generato domande basate su entità nominate trovate nel testo. Attraverso questo processo, sono state prodotte oltre 2,9 milioni di domande. Tuttavia, molte di queste domande presentavano problemi come essere troppo vaghe o rivelare le risposte. Per affinare il dataset, è stato applicato un processo di filtraggio in più fasi. Questo includeva la rimozione di domande che non finivano con un punto interrogativo, l'eliminazione di duplicati e garantire chiarezza e specificità nelle domande generate.

Analisi del Dataset e Caratteristiche

Statistiche sui Dati

Dopo l'elaborazione e il filtraggio, il dataset ChroniclingAmericaQA consisteva in 485.000 coppie di domande e risposte di alta qualità. I dati sono stati divisi in set di addestramento, sviluppo e test, con una grande parte destinata all'addestramento. Questa configurazione è essenziale per addestrare i modelli in modo efficace e consente una valutazione completa.

Il dataset presenta anche una vasta gamma di tipi di entità nominate, come persone, luoghi e organizzazioni, rendendolo versatile per diversi compiti di QA. Inoltre, i tipi di domande nel dataset sono diversificati, comprese quelle che chiedono informazioni specifiche o intuizioni culturali più ampie.

Prestazioni del Modello

Per valutare l'efficacia del dataset ChroniclingAmericaQA, sono stati testati diversi modelli avanzati. Questi includevano BERT, RoBERTa e T5, che sono costruiti su un'architettura transformer. Le prestazioni di questi modelli sono state valutate utilizzando misure di qualità come l'esatto abbinamento (EM) e il punteggio F1.

I risultati hanno dimostrato che i modelli addestrati specificamente sul dataset ChroniclingAmericaQA hanno performato significativamente meglio rispetto a quelli addestrati su altri dataset. Questo evidenzia l'importanza di affinare i modelli su dati specifici del dominio per migliorare le loro prestazioni.

Prestazioni dei Grandi Modelli Linguistici

Oltre ai modelli transformer, il dataset è stato anche valutato utilizzando Grandi Modelli Linguistici (LLMs), come LLaMA2 e Mistral. Poiché questi modelli spesso producono risposte più lunghe, le metriche di valutazione tradizionali come EM e punteggi F1 potrebbero non catturare completamente le loro prestazioni.

Invece, sono state introdotte metriche alternative come il Riconoscimento dei Token e la Contenibilità della Stringa di Risposta. Queste metriche forniscono una comprensione migliore di quanto bene gli LLMs possano generare risposte basate sul contesto fornito. I risultati hanno indicato che LLaMA2, essendo un modello più grande, ha raggiunto prestazioni significativamente migliori rispetto a modelli più piccoli.

Valutazione Umana

Per valutare ulteriormente la qualità del dataset ChroniclingAmericaQA, è stata condotta una valutazione manuale. Una selezione di coppie di domande e risposte è stata esaminata da studenti laureati che le hanno valutate in base a criteri come leggibilità, rilevanza e chiarezza. I feedback da questa valutazione hanno indicato che il dataset è di alta qualità, con la maggior parte delle domande chiare e direttamente correlate al contenuto.

Casi d'uso

Il dataset ChroniclingAmericaQA offre varie potenziali applicazioni. Prima di tutto, funge da nuovo benchmark per addestrare e valutare modelli QA su testi storici. Questo può migliorare il modo in cui i modelli gestiscono le complessità associate ai documenti antichi, comprese le variazioni linguistiche e le imprecisioni dell'OCR.

In secondo luogo, il dataset può coinvolgere il pubblico con materiali storici aiutando le persone a sviluppare competenze nella lettura critica e nelle arti del linguaggio. Anche gli educatori possono usarlo per valutare la comprensione degli studenti riguardo a documenti storici, integrando il dataset nel loro curriculum.

Inoltre, poiché il dataset include immagini dei giornali originali insieme al testo OCR, offre uno scenario realistico per il benchmark dei modelli. Diverse istituzioni potrebbero usare il dataset per migliorare l'accesso ai documenti storici e sostenere la ricerca in questo ambito.

Considerazioni Etiche

Infine, è fondamentale riconoscere le considerazioni etiche relative al dataset. Dato che si basa su dati storici, c'è la possibilità che alcuni contenuti possano riflettere pregiudizi o punti di vista offensivi prevalenti durante il periodo. Sono stati adottati passaggi per ridurre questo rischio attraverso un'analisi e un filtraggio accurati delle domande generate. Tuttavia, questo problema è comune nei materiali storici e merita attenzione e scrutinio continui.

Conclusione

Il dataset ChroniclingAmericaQA rappresenta un significativo avanzamento nell'uso dei giornali storici per l'answering alle domande e la comprensione della lettura da parte delle macchine. Affrontando le sfide legate alla qualità del testo OCR e al linguaggio storico, offre una risorsa preziosa per ricercatori e professionisti nel campo.

Le caratteristiche uniche del dataset, compreso il suo lungo lasso di tempo e contenuti diversificati, offrono un'opportunità per ulteriori esplorazioni e sviluppi dei sistemi QA. Man mano che la ricerca continua a evolversi in quest'area, il ChroniclingAmericaQA si erge come un pilastro per comprendere e sfruttare i testi storici per applicazioni moderne.

In sintesi, questo dataset non arricchisce solo il campo del processamento del linguaggio naturale, ma promuove anche una comprensione più profonda del nostro patrimonio storico. Facilitando l'intersezione tra tecnologia e storia, incoraggia una comprensione più sfumata del passato, a beneficio di ricercatori e del pubblico.

Fonte originale

Titolo: ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages

Estratto: Question answering (QA) and Machine Reading Comprehension (MRC) tasks have significantly advanced in recent years due to the rapid development of deep learning techniques and, more recently, large language models. At the same time, many benchmark datasets have become available for QA and MRC tasks. However, most existing large-scale benchmark datasets have been created predominantly using synchronous document collections like Wikipedia or the Web. Archival document collections, such as historical newspapers, contain valuable information from the past that is still not widely used to train large language models. To further contribute to advancing QA and MRC tasks and to overcome the limitation of previous datasets, we introduce ChroniclingAmericaQA, a large-scale temporal QA dataset with 487K question-answer pairs created based on the historical newspaper collection Chronicling America. Our dataset is constructed from a subset of the Chronicling America newspaper collection spanning 120 years. One of the significant challenges for utilizing digitized historical newspaper collections is the low quality of OCR text. Therefore, to enable realistic testing of QA models, our dataset can be used in three different ways: answering questions from raw and noisy content, answering questions from cleaner, corrected version of the content, as well as answering questions from scanned images of newspaper pages. This and the fact that ChroniclingAmericaQA spans the longest time period among available QA datasets make it quite a unique and useful resource.

Autori: Bhawna Piryani, Jamshid Mozafari, Adam Jatowt

Ultimo aggiornamento: 2024-05-10 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2403.17859

Fonte PDF: https://arxiv.org/pdf/2403.17859

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili