Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Migliorare la sintesi con citazioni in AQFS

Un nuovo set di dati migliora l'accuratezza dei riassunti garantendo citazioni corrette.

― 4 leggere min


Citare le fonti neiCitare le fonti neimodelli di sintesidelle citazioni nei compiti di sintesi.Un nuovo dataset migliora l'accuratezza
Indice

Nel mondo frenetico di oggi, la gente cerca sempre accesso rapido alle informazioni. Quando cercano online, spesso hanno bisogno di raccogliere dati da più fonti, il che può essere un vero rompicapo e prendere tempo. L'Attribuzione della Sintesi Focalizzata sulla Query (AQFS) è un compito che mira ad aiutare gli utenti riassumendo informazioni da vari documenti e fornendo citazioni corrette per le affermazioni fatte nei riassunti. In questo modo, gli utenti possono facilmente verificare le fonti e accedere a informazioni affidabili.

Il Bisogno di Citazioni nei Riassunti

Quando i modelli di linguaggio grandi (LLM) generano riassunti, è importante che citino le fonti delle informazioni presentate. Le citazioni aggiungono credibilità e permettono agli utenti di controllare la veridicità delle informazioni. Tuttavia, la maggior parte dei metodi di sintesi esistenti non affronta adeguatamente la necessità di citazioni corrette. Molti modelli o non forniscono citazioni o lo fanno in modo incoerente, portando a confusione e disinformazione.

Introduzione al Dataset WebCiteS

Per affrontare queste sfide, è stato creato un nuovo dataset chiamato WebCiteS. Questo dataset contiene 7.000 riassunti annotati a mano in cinese, completi di citazioni. È basato su vere query degli utenti e risultati di ricerca da un popolare motore di ricerca cinese, Sogou. L'obiettivo di WebCiteS è fornire una risorsa affidabile per addestrare e valutare modelli focalizzati su AQFS.

Sfide nella Valutazione dell'Attributo

Valutare quanto bene i modelli attribuiscono informazioni è complesso. Molti lavori esistenti non differenziano tra errori di base (se le informazioni sono accurate) e errori di citazione (se il modello cita correttamente le fonti). Questa mancanza di chiarezza rende difficile migliorare i modelli. Il nuovo approccio adottato nel dataset WebCiteS coinvolge l'uso di metriche dettagliate che permettono una valutazione più sfumata.

Metodologia di WebCiteS

Il dataset WebCiteS è costruito attraverso un processo in tre fasi:

  1. Screening Manuale e Estrazione delle Informazioni: Annotatori umani leggono query e documenti per estrarre informazioni utili da includere nei riassunti.

  2. Generazione di Riassunti Candidati Basati su LLM: Le informazioni estratte vengono utilizzate per creare riassunti candidati usando modelli di linguaggio come ChatGPT. Questa fase si concentra sull'evitare dati irrilevanti generando riassunti basati solo su informazioni preziose.

  3. Rifinitura Manuale e Annotazione delle Citazioni: Gli annotatori rivedono i riassunti candidati, scelgono le versioni preferite, migliorano la qualità e annotano le informazioni di citazione per garantire accuratezza.

Framework di Valutazione

Per valutare le prestazioni dei modelli che utilizzano il dataset WebCiteS, è stato stabilito un framework di valutazione completo. Questo framework si concentra su due dimensioni importanti: utilità della sintesi e attribuzione.

Metriche di Utilità della Sintesi

  1. Lunghezza: Viene riportata la lunghezza media del riassunto.

  2. Self-BLEU: Questa metrica misura la diversità del testo generato, aiutando a valutare la coerenza in risposte più lunghe.

  3. Precisione e Richiamo delle Affermazioni: Queste metriche valutano quanto accuratamente il sistema cattura informazioni rilevanti dai riassunti di riferimento.

Metriche di Valutazione dell'Attributo

  1. Fondamento: Controlla se le affermazioni del riassunto sono supportate dai documenti di input.

  2. Qualità della Citazione: Valuta quanto accuratamente e comprensivamente le citazioni supportano le affermazioni nel riassunto. Questo include la valutazione della precisione e del richiamo delle citazioni.

Risultati dalle Valutazioni di WebCiteS

La valutazione dei modelli sul dataset WebCiteS rivela diversi approfondimenti:

  1. Errori di Citazione Esistono in Tutti i Modelli: Anche quando un modello genera informazioni accurate basate sul contesto, gli errori di citazione sono comuni.

  2. Il Fine-Tuning Migliora le Prestazioni: I modelli che subiscono un fine-tuning supervisionato mostrano miglioramenti sia nel fondamento che nella Qualità delle Citazioni.

  3. I Contesti Lunghi Mettono alla Prova i Modelli: Quando i modelli riassumono documenti più lunghi, performano peggio, indicando difficoltà a sintetizzare e citare informazioni correttamente.

  4. La Granularità dei Documenti Conta: Dividere i documenti in porzioni più piccole e focalizzate può portare a prestazioni di attribuzione peggiori, poiché i modelli faticano a individuare le prove di supporto necessarie.

Conclusione

Il dataset WebCiteS e il suo framework di valutazione associato offrono una risorsa preziosa per migliorare il modo in cui i modelli gestiscono l'attribuzione nei compiti di sintesi. Con la continua crescita della domanda di informazioni affidabili, migliorare la capacità dei modelli di generare riassunti accurati con citazioni corrette è cruciale. Questo lavoro evidenzia le sfide in corso nel campo e pone le basi per ricerche future volte a perfezionare i processi di AQFS e aumentare l'affidabilità dei contenuti generati.

Con sforzi continui in quest'area, l'obiettivo finale è creare strumenti che permettano agli utenti di accedere rapidamente a informazioni accurate e affidabili, riducendo il carico della verifica manuale dei dati. Il futuro del recupero e della lavorazione delle informazioni si trova in tecniche di sintesi efficaci che danno priorità sia alla chiarezza che alla credibilità.

Fonte originale

Titolo: WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search Results with Citations

Estratto: Enhancing the attribution in large language models (LLMs) is a crucial task. One feasible approach is to enable LLMs to cite external sources that support their generations. However, existing datasets and evaluation methods in this domain still exhibit notable limitations. In this work, we formulate the task of attributed query-focused summarization (AQFS) and present WebCiteS, a Chinese dataset featuring 7k human-annotated summaries with citations. WebCiteS derives from real-world user queries and web search results, offering a valuable resource for model training and evaluation. Prior works in attribution evaluation do not differentiate between groundedness errors and citation errors. They also fall short in automatically verifying sentences that draw partial support from multiple sources. We tackle these issues by developing detailed metrics and enabling the automatic evaluator to decompose the sentences into sub-claims for fine-grained verification. Our comprehensive evaluation of both open-source and proprietary models on WebCiteS highlights the challenge LLMs face in correctly citing sources, underscoring the necessity for further improvement. The dataset and code will be open-sourced to facilitate further research in this crucial field.

Autori: Haolin Deng, Chang Wang, Xin Li, Dezhang Yuan, Junlang Zhan, Tianhua Zhou, Jin Ma, Jun Gao, Ruifeng Xu

Ultimo aggiornamento: 2024-05-28 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2403.01774

Fonte PDF: https://arxiv.org/pdf/2403.01774

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili