Valutare il ragionamento dei modelli linguistici con BoardgameQA
Valutando come i modelli linguistici gestiscono informazioni contraddittorie attraverso il dataset BoardgameQA.
― 7 leggere min
Indice
Il Ragionamento automatico in linguaggio naturale è fondamentale per molte applicazioni nell'intelligenza artificiale (AI). I recenti progressi nei modelli linguistici (LM) dimostrano che possono eseguire compiti di ragionamento complessi senza necessità di ulteriore formazione. Tuttavia, molti test si basano sull'assunzione che le informazioni fornite siano coerenti e chiare. In realtà, le informazioni disponibili spesso contengono contraddizioni e incoerenze. Questo significa che i LM devono essere in grado di risolvere i conflitti quando si presentano.
Un metodo comune per affrontare questi conflitti è stabilire preferenze per diverse fonti di informazione. Ad esempio, possiamo preferire informazioni da siti web affidabili rispetto a fonti meno credibili o dare priorità a informazioni più recenti rispetto a dati più vecchi. In questo contesto, abbiamo sviluppato un dataset chiamato BoardgameQA per valutare come i LM possono gestire il ragionamento in situazioni che coinvolgono informazioni contraddittorie.
Importanza del Ragionamento nell'AI
Sin dai primi giorni dell'AI, l'obiettivo è stato quello di consentire ai sistemi di applicare il ragionamento logico in modo autonomo. Molte forme di Conoscenza sono espresse in linguaggio naturale, il che ha portato a un notevole impegno nello sviluppo di modelli in grado di elaborare e ragionare su tali informazioni. I recenti miglioramenti nei LM consentono loro di lavorare più efficacemente con testi non strutturati, supportati da tecniche avanzate di prompting e ragionamento.
Tuttavia, gli approcci esistenti al ragionamento automatico spesso assumono un insieme affidabile di informazioni. In molte situazioni reali, i dati possono essere incoerenti, soprattutto quando provengono da diverse fonti online o piattaforme di social media. Quando ci troviamo di fronte a tali informazioni conflittuali, possono essere adottate diverse strategie per risolvere le incoerenze.
Strategie di Risoluzione dei Conflitti
Un approccio semplice è risolvere i conflitti in base alle preferenze per le fonti di informazione. Questo significa che quando due fonti si contraddicono, si dà priorità alle informazioni della fonte ritenuta più credibile o recente. Questo può applicarsi anche alla conoscenza generale e alle eccezioni. Ad esempio, mentre è generalmente accettato che "gli uccelli possono volare", questa regola può essere superata da casi specifici, come "i pinguini sono uccelli ma non volano."
Applicando preferenze per le fonti di informazione, possiamo formulare problemi di ragionamento che trattano le contraddizioni come una forma di ragionamento defeasible. In questo lavoro, presentiamo il dataset BoardgameQA per valutare le capacità di ragionamento dei LM all'interno di questo framework.
Dataset BoardgameQA
Il dataset BoardgameQA è progettato per misurare la capacità dei LM di gestire compiti di ragionamento che coinvolgono informazioni contraddittorie. Ogni voce nel dataset consiste in una teoria defeasible, che contiene fatti, regole potenzialmente conflittuali e preferenze per risolvere tali conflitti. Gli utenti devono rispondere a domande basate su queste teorie, coinvolgendo ragionamenti multi-hop e risoluzione dei conflitti.
Un aspetto chiave del nostro approccio è l'incorporazione di conoscenze di base implicite, che riflettono le complessità dei compiti di ragionamento nel mondo reale. Nei nostri benchmark, abbiamo trovato un significativo divario nelle capacità di ragionamento dei LM quando gestiscono input contraddittori, dimostrando che questo tipo di ragionamento non funziona in modo efficace senza una formazione e un affinamento adeguati.
Struttura di BoardgameQA
La struttura di BoardgameQA si ispira ai temi dei giochi da tavolo per creare scenari relazionabili per i compiti di ragionamento. Il dataset ci consente di formulare situazioni sintetiche con regole complesse che sembrano naturali in formato testuale. Così, le conoscenze di base possono essere efficacemente impiegate nel ragionamento. Ogni esempio richiede al modello di derivare fatti dalle informazioni fornite e rispondere a domande correlate.
Sfide nel Ragionamento Automatica
Molti test di ragionamento logico esistenti assumono che le informazioni siano coerenti e complete. Tuttavia, nella realtà, è comune affrontare sfide in cui le informazioni sono contraddittorie o incomplete. Il dataset BoardgameQA affronta specificamente questi scenari, che sono prevalenti in varie applicazioni.
Per valutare le abilità di ragionamento, abbiamo progettato compiti in cui i modelli devono risolvere conflitti e colmare le lacune nella conoscenza. Introducendo incoerenze e informazioni mancanti, possiamo valutare quanto bene i modelli performano in condizioni più realistiche. I nostri risultati rivelano che molti LM all'avanguardia faticano in queste situazioni, enfatizzando la necessità di capacità di ragionamento migliorate.
Tipi di Conflitti
I conflitti possono sorgere per diverse ragioni nei compiti di ragionamento logico. Li classifichiamo in due tipi principali:
Conflitti di Tipo 1: Questi si verificano quando due regole non possono essere vere contemporaneamente. Ad esempio, se una regola afferma che "X è un gatto" mentre un'altra afferma che "X non è un gatto", sorge un Conflitto. In questo caso, se la prima regola ha una priorità maggiore, accettiamo la sua conclusione.
Conflitti di Tipo 2: Questi conflitti richiedono che almeno uno degli elementi nel corpo di una regola conflittuale non possa essere dimostrato. In questo caso, dobbiamo considerare entrambe le regole per risolvere il conflitto.
Progettando il dataset BoardgameQA con proporzioni variabili di questi tipi di conflitto, possiamo valutare le performance di ragionamento dei LM in modo più completo.
Generazione del Dataset
Creare il dataset BoardgameQA implica generare esempi che illustrano vari scenari di ragionamento. Ogni esempio include una teoria defeasible insieme a una domanda correlata. Il nostro approccio assicura che ogni esempio corrisponda a un problema di ragionamento del mondo reale, e la complessità può essere adattata in base ai livelli di difficoltà richiesti.
Generazione della Teoria
Il processo di generazione della teoria costruisce i fatti, le regole e le domande necessarie per ogni scenario. Inizialmente, vengono campionate domande specifiche insieme a regole correlate, e viene utilizzato un approccio ricorsivo per costruire le teorie. In qualsiasi fase, possiamo introdurre conflitti basati su una probabilità prestabilita.
Nella generazione del dataset, ci assicuriamo che i conflitti siano introdotti in un modo che mantenga la coerenza logica delle teorie rimanenti. Questo è in linea con il nostro obiettivo di creare un terreno di prova impegnativo ma equo per le capacità di ragionamento.
Gestione delle Informazioni Incomplete
In molte istanze, la conoscenza necessaria per rispondere a domande è incompleta. Nel dataset BoardgameQA, una parte delle informazioni necessarie è intenzionalmente tenuta nascosta dal modello. Il modello deve quindi utilizzare la sua comprensione del mondo per colmare queste lacune.
Trasformazione in Linguaggio Naturale
Una volta generati i fatti e le regole per uno scenario, li convertiamo in un formato più naturale. Questo aiuta a rendere gli esempi più relazionabili e più facili da elaborare per i LM.
Approccio Sperimentale
Il nostro obiettivo principale negli esperimenti è valutare se i LM possano ragionare efficacemente all'interno di un framework defeasible. Abbiamo testato diverse architetture di LM utilizzando diversi metodi di addestramento, come il fine-tuning e le tecniche basate su prompt.
Metriche per la Valutazione
Per misurare l'efficacia del ragionamento, ci concentriamo su metriche di classificazione. Analizziamo la capacità dei modelli di prevedere accuratamente gli esiti basati sulle teorie fornite. Questo include esaminare quanto bene i modelli possono identificare situazioni in cui una conclusione è dimostrata, smentita o rimane sconosciuta.
Risultati e Approfondimenti
I risultati dei nostri esperimenti evidenziano le significative sfide affrontate dai LM quando ragionano con input contraddittori. In generale, i LM mostrano prestazioni scarse, in particolare quando non possono fare affidamento su tutte le informazioni necessarie. I nostri risultati rivelano un divario critico nelle loro capacità di ragionamento, che devono essere affrontate per sistemi AI migliorati.
Difficoltà nella Risoluzione dei Conflitti
I conflitti presentano una notevole sfida per i LM. Man mano che il numero di conflitti negli esempi aumenta, i modelli tendono a faticare di più nel fare previsioni corrette. Questa tendenza supporta l'idea che risolvere i conflitti in modo efficace sia vitale per un ragionamento di successo.
Impatto della Completezza della Conoscenza
Quando è necessaria ulteriore conoscenza, i modelli più piccoli mostrano prestazioni particolarmente basse. Questo suggerisce che la capacità di reperire e incorporare informazioni è un aspetto chiave del ragionamento che necessita di miglioramenti.
Conclusione
In conclusione, abbiamo presentato BoardgameQA, un dataset progettato per valutare la capacità di ragionamento dei modelli linguistici in scenari con input contraddittori. La nostra analisi approfondita evidenzia le limitazioni dei modelli attuali quando affrontano informazioni inconsistenti o quando devono generare informazioni in modo autonomo.
I risultati sottolineano l'importanza della risoluzione dei conflitti e la necessità di metodologie di ragionamento più robuste nei futuri sistemi AI. Speriamo che questo dataset apra la strada a ricerche mirate a migliorare le capacità di ragionamento dei LM, consentendo loro di gestire le complessità del mondo reale in modo più efficace.
Titolo: BoardgameQA: A Dataset for Natural Language Reasoning with Contradictory Information
Estratto: Automated reasoning with unstructured natural text is a key requirement for many potential applications of NLP and for developing robust AI systems. Recently, Language Models (LMs) have demonstrated complex reasoning capacities even without any finetuning. However, existing evaluation for automated reasoning assumes access to a consistent and coherent set of information over which models reason. When reasoning in the real-world, the available information is frequently inconsistent or contradictory, and therefore models need to be equipped with a strategy to resolve such conflicts when they arise. One widely-applicable way of resolving conflicts is to impose preferences over information sources (e.g., based on source credibility or information recency) and adopt the source with higher preference. In this paper, we formulate the problem of reasoning with contradictory information guided by preferences over sources as the classical problem of defeasible reasoning, and develop a dataset called BoardgameQA for measuring the reasoning capacity of LMs in this setting. BoardgameQA also incorporates reasoning with implicit background knowledge, to better reflect reasoning problems in downstream applications. We benchmark various LMs on BoardgameQA and the results reveal a significant gap in the reasoning capacity of state-of-the-art LMs on this problem, showing that reasoning with conflicting information does not surface out-of-the-box in LMs. While performance can be improved with finetuning, it nevertheless remains poor.
Autori: Mehran Kazemi, Quan Yuan, Deepti Bhatia, Najoung Kim, Xin Xu, Vaiva Imbrasaite, Deepak Ramachandran
Ultimo aggiornamento: 2023-06-13 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2306.07934
Fonte PDF: https://arxiv.org/pdf/2306.07934
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.