Valutare l'accuratezza fattuale nei riassunti lunghi
Viene introdotto un nuovo metodo per valutare l'accuratezza fattuale in riassunti lunghi.
― 6 leggere min
Mantenere i fatti in ordine è super importante quando si riassumono testi lunghi in un modo che suoni naturale. Però, molti Metodi di valutazione che usiamo di solito, come ROUGE, non controllano davvero se i fatti nei riassunti sono accurati. Recentemente ci sono stati tentativi di trovare modi migliori per valutare l'Accuratezza Fattuale usando modelli linguistici avanzati. Ma, questi metodi hanno dei limiti sul numero di parole che possono gestire, rendendoli poco adatti per documenti più lunghi. Non ci sono molte ricerche su quanto bene funzionino i metodi di scoring automatico con riassunti di testi lunghi. Questo lavoro ha lo scopo di testare quanto bene questi metodi automatici valutano l'accuratezza fattuale nei riassunti lunghi e introduce un nuovo sistema di punteggio chiamato LongDocFACTScore. Questo nuovo sistema può gestire documenti di qualsiasi lunghezza e mostra risultati migliori rispetto ai metodi esistenti quando si valuta l'accuratezza fattuale nei riassunti più lunghi. Inoltre, LongDocFACTScore si comporta in modo simile ai metodi avanzati quando si valutano riassunti più brevi.
L'inconsistenza fattuale si verifica quando un riassunto non corrisponde alle informazioni nel documento originale. Questo problema è comune nei metodi di riassunto moderni. Anche se i grandi modelli linguistici (LLM) funzionano incredibilmente bene in molti compiti linguistic, continuano a faticare a mantenere l'integrità fattuale. La Valutazione Umana è spesso vista come il modo migliore per valutare le prestazioni di questi modelli. Tuttavia, uno studio ha trovato che un gran numero di studi sul riassunto non conduce valutazioni umane su dati di documenti lunghi. Questo evidenzia la necessità di metodi di valutazione automatica che funzionino efficacemente con testi più lunghi. Anche se i metodi di scoring automatico forniscono un'alternativa più rapida e economica alle valutazioni umane, i metodi tradizionali come ROUGE risultano inadeguati poiché non catturano errori fattuali, semantici e grammaticali importanti.
Ci sono stati sforzi per sviluppare metriche migliori per misurare la coerenza fattuale, ma la maggior parte di questi studi si concentra solo su testi più brevi, lasciando un vuoto nella ricerca per documenti più lunghi. Molti di questi metodi di scoring più recenti si basano sul confronto dei riassunti con i documenti sorgente invece di riassunti consolidati e standard. Tuttavia, a causa di limitazioni nella capacità di elaborazione, queste metriche più recenti spesso troncano una parte significativa dei documenti lunghi, portando a risultati di valutazione scadenti.
Questo lavoro introduce LongDocFACTScore per affrontare questi problemi. Il framework consente ai metriche di scoring esistenti di valutare l'intero documento sorgente senza troncamenti. Il nuovo metodo supera i metodi di scoring precedenti nella sua capacità di confrontare l'accuratezza dei riassunti con i giudizi umani su documenti lunghi. Inoltre, LongDocFACTScore mostra prestazioni simili rispetto ai sistemi di scoring esistenti quando utilizzato su documenti più brevi. Il codice e i set di dati utilizzati in questa ricerca sono accessibili pubblicamente.
Per capire come funziona LongDocFACTScore, vediamo il metodo di calcolo. Il framework confronta ogni frase nel riassunto generato con sezioni correlate dell'intero documento sorgente utilizzando tecniche moderne di rappresentazione delle frasi. Il primo passo consiste nel dividere sia il documento originale che il riassunto in frasi. Poi, si generano rappresentazioni delle frasi usando un robusto modello linguistico. Per ogni frase del riassunto, il sistema calcola quanto sia simile a tutte le frasi nel documento originale. Le frasi più simili vengono selezionate e combinate con frasi circostanti per formare brevi frammenti di testo. Il metriche di scoring vengono quindi applicate a questi frammenti contro la frase del riassunto generato, ripetendo questo per ogni frase nel riassunto per ottenere un punteggio complessivo.
Ora, esploriamo i set di dati utilizzati per testare l'efficacia di queste metriche. È stato creato un nuovo set di dati chiamato LongSciVerify, specificamente per documenti scientifici lunghi. Questo set di dati contiene annotazioni dettagliate da parte di esperti umani sull'accuratezza fattuale dei riassunti creati da documenti lunghi. Include più riassunti generati dallo stesso documento originale. Inoltre, è stato utilizzato anche il set di dati LongEval PubMed per ulteriori valutazioni. I set di dati consistono in documenti lunghi e brevi annotati per correttezza fattuale, permettendo una valutazione completa dei metodi proposti.
Il set di dati LongSciVerify raccoglie riassunti da testi biomedici e scientifici, con annotatori umani esperti che assegnano punteggi di accuratezza in base a se i riassunti rappresentano accuratamente i documenti sorgente. Il processo include la campionatura di articoli casuali e la generazione di riassunti usando diversi metodi avanzati di riassunto. Gli valutatori umani dovevano controllare se i riassunti generati erano fattualmente accurati, seguendo un chiaro insieme di linee guida su cosa significhi coerenza fattuale.
La valutazione umana dei set di dati ha indicato che spesso c'è un alto livello di accordo tra gli annotatori riguardo alla correttezza fattuale dei riassunti. Tuttavia, sono state notate alcune differenze tra i documenti di diverse aree, probabilmente a causa di variazioni nell'esperienza soggettiva. Questi dati sono cruciali per comprendere quanto bene le metriche automatiche si correlano con il punteggio umano.
Dopo aver confrontato le prestazioni di LongDocFACTScore con altre metriche consolidate su set di dati di documenti lunghi e brevi, è stato trovato che LongDocFACTScore mostrava costantemente una migliore correlazione con le valutazioni umane. Al contrario, altri metodi come FactCC e QuestEval non hanno funzionato altrettanto bene, specialmente quando applicati a documenti lunghi. Anche i metodi tradizionali come ROUGE e BERTScore si sono dimostrati avere un'efficacia limitata nel catturare l'accuratezza fattuale.
In termini di efficienza, LongDocFACTScore è emerso come un'opzione veloce rispetto ad altri metodi di scoring. Richiede meno tempo per valutare i riassunti rispetto all'intero contenuto di un documento lungo rispetto ai metodi più complessi, rendendolo una scelta pratica per i ricercatori che lavorano con testi lunghi.
Sebbene LongDocFACTScore sia progettato principalmente per documenti lunghi, ha anche dimostrato di funzionare bene con riassunti più brevi, suggerendo la sua versatilità su diversi tipi di testo. La valutazione ha confermato che il metodo è efficace nel fornire una valutazione completa della coerenza fattuale dei riassunti generati.
Infine, lo studio riconosce alcune limitazioni nel suo approccio di valutazione. Gli valutatori umani erano esperti nei loro campi, il che può limitare la capacità di generalizzare i risultati su altri tipi di documenti. Inoltre, LongDocFACTScore tende a favorire riassunti estrattivi, il che significa che potrebbe non valutare la qualità complessiva di un riassunto in modo completo. Per affrontare questo, si raccomanda che i ricercatori utilizzino LongDocFACTScore insieme ad altre metriche di valutazione che valutano diversi aspetti della qualità del riassunto.
Lavorare con grandi modelli linguistici può richiedere molte risorse, e la ricerca ha notato la notevole potenza di calcolo e il tempo necessari per gli esperimenti. Tuttavia, il framework proposto rappresenta un significativo passo avanti nel migliorare la valutazione dei metodi di riassunto per documenti più lunghi, incoraggiando ulteriori esplorazioni in questo importante campo di ricerca.
Con l'evoluzione dei modelli linguistici, c'è un urgente bisogno di metriche affidabili per valutare i riassunti che producono. Il framework LongDocFACTScore fornisce una solida base per valutare automaticamente l'accuratezza fattuale dei riassunti di documenti lunghi, segnando uno sviluppo essenziale nel campo dell'elaborazione del linguaggio naturale.
Titolo: LongDocFACTScore: Evaluating the Factuality of Long Document Abstractive Summarisation
Estratto: Maintaining factual consistency is a critical issue in abstractive text summarisation, however, it cannot be assessed by traditional automatic metrics used for evaluating text summarisation, such as ROUGE scoring. Recent efforts have been devoted to developing improved metrics for measuring factual consistency using pre-trained language models, but these metrics have restrictive token limits, and are therefore not suitable for evaluating long document text summarisation. Moreover, there is limited research and resources available for evaluating whether existing automatic evaluation metrics are fit for purpose when applied in long document settings. In this work, we evaluate the efficacy of automatic metrics for assessing the factual consistency of long document text summarisation. We create a human-annotated data set for evaluating automatic factuality metrics, LongSciVerify, which contains fine-grained factual consistency annotations for long document summaries from the scientific domain. We also propose a new evaluation framework, LongDocFACTScore, which is suitable for evaluating long document summarisation. This framework allows metrics to be efficiently extended to any length document and outperforms existing state-of-the-art metrics in its ability to correlate with human measures of factuality when used to evaluate long document summarisation data sets. We make our code and LongSciVerify data set publicly available: https://github.com/jbshp/LongDocFACTScore.
Autori: Jennifer A Bishop, Qianqian Xie, Sophia Ananiadou
Ultimo aggiornamento: 2024-05-28 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.12455
Fonte PDF: https://arxiv.org/pdf/2309.12455
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/jbshp/LongDocFACTScore
- https://www.nltk.org
- https://github.com/UKPLab/sentence-transformers
- https://huggingface.co/sentence-transformers/bert-base-nli-mean-tokens
- https://github.com/grrrr/krippendorff-alpha
- https://huggingface.co/spaces/evaluate-metric/rouge
- https://github.com/salesforce/factCC
- https://github.com/ThomasScialom/QuestEval
- https://huggingface.co/facebook/bart-large
- https://scipy.org
- https://github.com/neulab/BARTScore