Migliorare la sintesi con citazioni in AQFS
Un nuovo set di dati migliora l'accuratezza dei riassunti garantendo citazioni corrette.
― 4 leggere min
Indice
- Il Bisogno di Citazioni nei Riassunti
- Introduzione al Dataset WebCiteS
- Sfide nella Valutazione dell'Attributo
- Metodologia di WebCiteS
- Framework di Valutazione
- Metriche di Utilità della Sintesi
- Metriche di Valutazione dell'Attributo
- Risultati dalle Valutazioni di WebCiteS
- Conclusione
- Fonte originale
- Link di riferimento
Nel mondo frenetico di oggi, la gente cerca sempre accesso rapido alle informazioni. Quando cercano online, spesso hanno bisogno di raccogliere dati da più fonti, il che può essere un vero rompicapo e prendere tempo. L'Attribuzione della Sintesi Focalizzata sulla Query (AQFS) è un compito che mira ad aiutare gli utenti riassumendo informazioni da vari documenti e fornendo citazioni corrette per le affermazioni fatte nei riassunti. In questo modo, gli utenti possono facilmente verificare le fonti e accedere a informazioni affidabili.
Il Bisogno di Citazioni nei Riassunti
Quando i modelli di linguaggio grandi (LLM) generano riassunti, è importante che citino le fonti delle informazioni presentate. Le citazioni aggiungono credibilità e permettono agli utenti di controllare la veridicità delle informazioni. Tuttavia, la maggior parte dei metodi di sintesi esistenti non affronta adeguatamente la necessità di citazioni corrette. Molti modelli o non forniscono citazioni o lo fanno in modo incoerente, portando a confusione e disinformazione.
Introduzione al Dataset WebCiteS
Per affrontare queste sfide, è stato creato un nuovo dataset chiamato WebCiteS. Questo dataset contiene 7.000 riassunti annotati a mano in cinese, completi di citazioni. È basato su vere query degli utenti e risultati di ricerca da un popolare motore di ricerca cinese, Sogou. L'obiettivo di WebCiteS è fornire una risorsa affidabile per addestrare e valutare modelli focalizzati su AQFS.
Sfide nella Valutazione dell'Attributo
Valutare quanto bene i modelli attribuiscono informazioni è complesso. Molti lavori esistenti non differenziano tra errori di base (se le informazioni sono accurate) e errori di citazione (se il modello cita correttamente le fonti). Questa mancanza di chiarezza rende difficile migliorare i modelli. Il nuovo approccio adottato nel dataset WebCiteS coinvolge l'uso di metriche dettagliate che permettono una valutazione più sfumata.
Metodologia di WebCiteS
Il dataset WebCiteS è costruito attraverso un processo in tre fasi:
Screening Manuale e Estrazione delle Informazioni: Annotatori umani leggono query e documenti per estrarre informazioni utili da includere nei riassunti.
Generazione di Riassunti Candidati Basati su LLM: Le informazioni estratte vengono utilizzate per creare riassunti candidati usando modelli di linguaggio come ChatGPT. Questa fase si concentra sull'evitare dati irrilevanti generando riassunti basati solo su informazioni preziose.
Rifinitura Manuale e Annotazione delle Citazioni: Gli annotatori rivedono i riassunti candidati, scelgono le versioni preferite, migliorano la qualità e annotano le informazioni di citazione per garantire accuratezza.
Framework di Valutazione
Per valutare le prestazioni dei modelli che utilizzano il dataset WebCiteS, è stato stabilito un framework di valutazione completo. Questo framework si concentra su due dimensioni importanti: utilità della sintesi e attribuzione.
Metriche di Utilità della Sintesi
Lunghezza: Viene riportata la lunghezza media del riassunto.
Self-BLEU: Questa metrica misura la diversità del testo generato, aiutando a valutare la coerenza in risposte più lunghe.
Precisione e Richiamo delle Affermazioni: Queste metriche valutano quanto accuratamente il sistema cattura informazioni rilevanti dai riassunti di riferimento.
Metriche di Valutazione dell'Attributo
Fondamento: Controlla se le affermazioni del riassunto sono supportate dai documenti di input.
Qualità della Citazione: Valuta quanto accuratamente e comprensivamente le citazioni supportano le affermazioni nel riassunto. Questo include la valutazione della precisione e del richiamo delle citazioni.
Risultati dalle Valutazioni di WebCiteS
La valutazione dei modelli sul dataset WebCiteS rivela diversi approfondimenti:
Errori di Citazione Esistono in Tutti i Modelli: Anche quando un modello genera informazioni accurate basate sul contesto, gli errori di citazione sono comuni.
Il Fine-Tuning Migliora le Prestazioni: I modelli che subiscono un fine-tuning supervisionato mostrano miglioramenti sia nel fondamento che nella Qualità delle Citazioni.
I Contesti Lunghi Mettono alla Prova i Modelli: Quando i modelli riassumono documenti più lunghi, performano peggio, indicando difficoltà a sintetizzare e citare informazioni correttamente.
La Granularità dei Documenti Conta: Dividere i documenti in porzioni più piccole e focalizzate può portare a prestazioni di attribuzione peggiori, poiché i modelli faticano a individuare le prove di supporto necessarie.
Conclusione
Il dataset WebCiteS e il suo framework di valutazione associato offrono una risorsa preziosa per migliorare il modo in cui i modelli gestiscono l'attribuzione nei compiti di sintesi. Con la continua crescita della domanda di informazioni affidabili, migliorare la capacità dei modelli di generare riassunti accurati con citazioni corrette è cruciale. Questo lavoro evidenzia le sfide in corso nel campo e pone le basi per ricerche future volte a perfezionare i processi di AQFS e aumentare l'affidabilità dei contenuti generati.
Con sforzi continui in quest'area, l'obiettivo finale è creare strumenti che permettano agli utenti di accedere rapidamente a informazioni accurate e affidabili, riducendo il carico della verifica manuale dei dati. Il futuro del recupero e della lavorazione delle informazioni si trova in tecniche di sintesi efficaci che danno priorità sia alla chiarezza che alla credibilità.
Titolo: WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search Results with Citations
Estratto: Enhancing the attribution in large language models (LLMs) is a crucial task. One feasible approach is to enable LLMs to cite external sources that support their generations. However, existing datasets and evaluation methods in this domain still exhibit notable limitations. In this work, we formulate the task of attributed query-focused summarization (AQFS) and present WebCiteS, a Chinese dataset featuring 7k human-annotated summaries with citations. WebCiteS derives from real-world user queries and web search results, offering a valuable resource for model training and evaluation. Prior works in attribution evaluation do not differentiate between groundedness errors and citation errors. They also fall short in automatically verifying sentences that draw partial support from multiple sources. We tackle these issues by developing detailed metrics and enabling the automatic evaluator to decompose the sentences into sub-claims for fine-grained verification. Our comprehensive evaluation of both open-source and proprietary models on WebCiteS highlights the challenge LLMs face in correctly citing sources, underscoring the necessity for further improvement. The dataset and code will be open-sourced to facilitate further research in this crucial field.
Autori: Haolin Deng, Chang Wang, Xin Li, Dezhang Yuan, Junlang Zhan, Tianhua Zhou, Jin Ma, Jun Gao, Ruifeng Xu
Ultimo aggiornamento: 2024-05-28 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2403.01774
Fonte PDF: https://arxiv.org/pdf/2403.01774
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/HarlynDN/WebCiteS
- https://huggingface.co/joeddav/xlm-roberta-large-xnli
- https://huggingface.co/IDEA-CCNL/Erlangshen-Roberta-330M-NLI
- https://huggingface.co/IDEA-CCNL/Erlangshen-MegatronBert-1.3B-NLI
- https://huggingface.co/alan-turing-institute/mt5-large-finetuned-mnli-xtreme-xnli