Valutare la diversità nel recupero di domande complesse
Uno studio per migliorare i metodi di recupero delle opinioni diverse su questioni complesse.
― 8 leggere min
Indice
- Panoramica del Nostro Benchmark e Compito
- Importanza delle Prospettive Diverse
- Test dei Recuperatori e Tipi di Corpus
- Tecniche per Migliorare la Diversità nel Recupero
- Analisi di Diverse Fonti di Dati
- Di Cosa Abbiamo Bisogno per Recuperare Prospettive Diverse?
- Esaminando la Sycophancy dei Recuperatori
- Le Limitazioni della Diversità di Recupero
- Conclusioni
- Fonte originale
- Link di riferimento
Nella nostra ricerca, ci concentriamo su come trovare varie opinioni su domande complesse che spesso hanno punti di vista diversi. Per esempio, una domanda come "ChatGPT farà più male che bene?" può essere vista da tanti angoli diversi. Per aiutare in questo, abbiamo creato un dataset speciale chiamato Benchmark per la Diversità di Recupero per Domande Soggettive. Questo dataset include domande e una gamma di opinioni su di esse, prese da sondaggi e siti di dibattito.
Recuperare informazioni che mostrano prospettive diverse può essere una sfida. Molti metodi esistenti cercano documenti che semplicemente corrispondono alle parole chiave della domanda, ma questo non cattura l'essenza delle varie opinioni. Per affrontare questo problema, abbiamo sviluppato un sistema che utilizza modelli linguistici per determinare se i documenti recuperati contengono effettivamente una Prospettiva legata alla domanda posta. Abbiamo testato questo con diverse tipologie di fonti di informazione come Wikipedia, snapshot del Web, e documenti creati al momento usando risultati di motori di ricerca.
Nonostante i nostri sforzi, abbiamo trovato che i metodi attuali coprivano solo tutti i punti di vista in circa un terzo dei casi che abbiamo esaminato. Abbiamo anche considerato come espandere i termini di ricerca e regolare quali documenti sono prioritari possa influenzare i risultati. La nostra ricerca getta le basi per migliorare il modo in cui gestiamo la diversità di recupero in query complesse.
Panoramica del Nostro Benchmark e Compito
Il nostro benchmark consiste in casi in cui ognuno include una domanda e un insieme di prospettive. Dopo che un recuperatore restituisce una selezione di documenti, valutiamo se questi documenti contengono risposte o punti di vista multipli. Per misurare quanto bene i recuperatori performano, usiamo una metrica chiamata MRecall, che controlla se i documenti recuperati coprono le risposte e prospettive diverse. Guardiamo anche alla precisione, che ci dice se i documenti hanno prospettive rilevanti. A questo scopo, abbiamo costruito uno strumento speciale chiamato "Rilevazione della Prospettiva" che valuta se un Documento presenta un punto di vista specifico.
Abbiamo scoperto che fare affidamento solo su Wikipedia spesso non basta quando si tratta di rispondere a molte delle nostre domande. Perciò, abbiamo sperimentato con diverse fonti di dati, trovando che usare contenuti web tende a dare risultati più diversi.
Importanza delle Prospettive Diverse
Quando ci troviamo davanti a domande complicate come "ChatGPT farà più male che bene?", è fondamentale che un sistema di recupero faccia emergere una gamma di opinioni. Se ci concentriamo solo su quanto sia rilevante l'informazione, potremmo trascurare prospettive importanti. Fornire agli utenti documenti diversi è utile e aiuta a migliorare i modelli linguistici che generano risposte. Chiedere ai grandi modelli linguistici di proporre risposte diverse da soli è complicato, quindi usare metodi di recupero può aiutarli a formulare risposte più complete.
Per valutare la diversità del recupero, guardiamo se i documenti principali recuperati contengono una varietà di prospettive per una determinata domanda. Definiamo una prospettiva come un punto di vista specifico sulla domanda presentata. Abbiamo creato un dataset con 3.000 domande complesse, ognuna legata a una media di 2.3 prospettive. Queste domande provengono da tre fonti principali: raccolte di sondaggi, siti web di argomenti di dibattito e una piattaforma chiamata Kialo che presenta mappe di argomenti.
I benchmark di recupero attuali controllano solitamente se i documenti corrispondono a risposte esatte, ma noi non assumiamo alcuna risposta o documento specifico noto. Invece, valutiamo quanto bene i sistemi di recupero performano in situazioni reali. Per fare ciò, abbiamo sviluppato un valutatore basato su modelli linguistici che può decidere se un documento supporta una particolare prospettiva.
Test dei Recuperatori e Tipi di Corpus
Per vedere quanto bene funzionano i nostri metodi di recupero, abbiamo testato vari recuperatori contro diverse fonti di informazione. Data la natura soggettiva delle nostre domande, abbiamo trovato che Wikipedia spesso mancava di contenuti sufficienti. Perciò, ci siamo rivolti a un set più ampio di dati web, che includeva documenti recuperati da motori di ricerca. I nostri risultati hanno evidenziato che mixare metodi di recupero densi con contenuti web tende a produrre i migliori risultati in termini di diversità di prospettiva.
Tuttavia, nonostante i miglioramenti, i sistemi di recupero faticano ancora a fornire una visione completa. I nostri test hanno mostrato che anche le impostazioni di recupero migliori coprivano i punti di vista solo in circa il 30% dei casi. Questo indica che, mentre i sistemi possono trovare informazioni rilevanti, non riescono comunque a presentare un'ampia gamma di punti di vista.
Tecniche per Migliorare la Diversità nel Recupero
Per migliorare la diversità delle informazioni restituite dai nostri metodi di recupero, abbiamo applicato due strategie principali: riordinare i documenti e espandere le query di ricerca. Il riordino modifica i punteggi dei documenti restituiti in modo che quelli simili a quelli già recuperati siano penalizzati. Questo aiuta a mettere in risalto documenti unici nell'output.
D'altra parte, l'espansione delle query implica usare un modello linguistico per generare più punti di vista su una domanda, che vengono poi utilizzati per guidare il processo di recupero. Abbiamo visto miglioramenti sostanziali nei risultati del recupero quando abbiamo implementato queste tecniche, specialmente con algoritmi di recupero denso.
Analisi di Diverse Fonti di Dati
Confrontando come i recuperatori si sono comportati in base alle diverse fonti di informazione, abbiamo notato che utilizzare snapshot del web portava a risultati migliori rispetto a fare affidamento solo su Wikipedia. Tuttavia, utilizzando Google Search come fonte, i risultati variavano; mentre forniva alcune intuizioni utili, non eguagliava la diversità di informazioni disponibili da database web più ampi.
Tra i diversi recuperatori, abbiamo scoperto che uno chiamato Contriever forniva costantemente i risultati più diversi. Tuttavia, anche i migliori output faticavano a coprire tutte le prospettive richieste, indicando un significativo divario nella tecnologia di recupero attuale.
Di Cosa Abbiamo Bisogno per Recuperare Prospettive Diverse?
La nostra ricerca ha cercato anche di rispondere alla domanda: quanti documenti devono essere recuperati per garantire che tutte le prospettive siano coperte? Esaminando più a fondo le performance dei nostri recuperatori di base, abbiamo scoperto che recuperare fino a 100 documenti per una singola domanda spesso produce risultati migliori. Abbiamo trovato che il Contriever riusciva a catturare tutte le prospettive l'83.1% delle volte all'interno dei primi 100 documenti, anche se questa quantità variava con diverse impostazioni di recupero.
Inoltre, volevamo capire se i recuperatori mostravano una tendenza a favoreggiungere prospettive di supporto rispetto a quelle contrarie. Questa indagine ha rivelato che i recuperatori tendevano a enfatizzare le prospettive di supporto, trascurando spesso i punti di vista opposti quando entrambi erano disponibili.
Esaminando la Sycophancy dei Recuperatori
Abbiamo anche analizzato se i sistemi di recupero potessero essere influenzati da prospettive che si allineano più strettamente con le domande poste. In altre parole, se un recuperatore veniva stimolato con un'affermazione di supporto, sarebbe stato più probabile che recuperasse documenti che sostenessero quello stesso punto di vista? I nostri esperimenti hanno mostrato che recuperare con prospettive di supporto portava a una maggiore proporzione di documenti a favore dello stesso punto di vista, indicando un modello di favoritismo verso la posizione presentata.
Le Limitazioni della Diversità di Recupero
Attualmente, riconosciamo che esistono limitazioni sia nei sistemi di recupero che nelle fonti da cui attingono informazioni. Anche se non assumiamo che esista un corpus d'oro, le metriche di performance indicano che i migliori metodi di recupero sono ancora carenti, con i sistemi più efficaci che non riescono a catturare pienamente le prospettive diverse.
Per esplorare ulteriormente queste limitazioni, abbiamo combinato i migliori output provenienti da diversi recuperatori per vedere se questo avrebbe migliorato la diversità. Abbiamo scoperto che unire risultati provenienti da diverse fonti portava spesso a performance più alte rispetto agli output di un singolo recuperatore, specialmente quando si utilizzava dati web piuttosto che Wikipedia.
Conclusioni
In conclusione, abbiamo creato un benchmark che valuta quanto bene i metodi di recupero possono scoprire prospettive diverse su domande complesse. I nostri esperimenti evidenziano che i sistemi e i dataset esistenti faticano a fornire informazioni complete su query basate su opinioni. C'è un significativo margine di miglioramento, in particolare nel connettere le intuizioni provenienti da recuperi documentali diversificati con tecniche di sintesi efficaci.
Future esplorazioni potrebbero anche espandere questo lavoro in vari campi oltre dibattiti e sondaggi, inclusi settori come la salute. Inoltre, migliorare l'efficienza dei modelli linguistici usati per la valutazione migliorerebbe notevolmente i nostri risultati.
Sebbene ci siamo basati molto su dati generati da grandi modelli linguistici, le prime indagini suggeriscono che la qualità dei dati non presenta un problema significativo. Andando avanti, i nostri risultati aprono la strada a sistemi più sfumati in grado di recuperare e valutare prospettive diverse in una varietà di contesti. Questo può portare, in ultima analisi, a discussioni più informate e bilanciate nella società.
Titolo: Open-World Evaluation for Retrieving Diverse Perspectives
Estratto: We study retrieving a set of documents that covers various perspectives on a complex and contentious question (e.g., will ChatGPT do more harm than good?). We curate a Benchmark for Retrieval Diversity for Subjective questions (BERDS), where each example consists of a question and diverse perspectives associated with the question, sourced from survey questions and debate websites. On this data, retrievers paired with a corpus are evaluated to surface a document set that contains diverse perspectives. Our framing diverges from most retrieval tasks in that document relevancy cannot be decided by simple string matches to references. Instead, we build a language model based automatic evaluator that decides whether each retrieved document contains a perspective. This allows us to evaluate the performance of three different types of corpus (Wikipedia, web snapshot, and corpus constructed on the fly with retrieved pages from the search engine) paired with retrievers. Retrieving diverse documents remains challenging, with the outputs from existing retrievers covering all perspectives on only 33.74% of the examples. We further study the impact of query expansion and diversity-focused reranking approaches and analyze retriever sycophancy. Together, we lay the foundation for future studies in retrieval diversity handling complex queries.
Autori: Hung-Ting Chen, Eunsol Choi
Ultimo aggiornamento: 2024-09-26 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2409.18110
Fonte PDF: https://arxiv.org/pdf/2409.18110
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://timchen0618.github.io/berds/
- https://arxiv.org/abs/2309.09369
- https://github.com/salesforce/discord_questions
- https://serper.dev/
- https://pypi.org/project/html2text/
- https://github.com/buriy/python-readability
- https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2
- https://huggingface.co/WhereIsAI/UAE-Large-V1