Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Intelligenza artificiale# Calcolo e linguaggio

Sfide del ragionamento fuzzy nei modelli di linguaggio grandi

Questo studio esplora come i modelli di linguaggio grandi gestiscono i compiti di ragionamento fuzzy.

― 8 leggere min


Ragionamento fuzzy neiRagionamento fuzzy neiLLMscon le sfide di ragionamento vago.I modelli di linguaggio grandi faticano
Indice

Il Ragionamento Fuzzy è importante perché spesso ci troviamo a dover gestire informazioni poco chiare o imprecise nella vita di tutti i giorni. Però, quanto bene riescono a gestire questo tipo di ragionamento i modelli linguistici di grandi dimensioni (LLM) non è stato ancora esaminato a fondo. In questo studio, presentiamo un nuovo benchmark per il ragionamento fuzzy, concentrandoci su Problemi matematici reali che includono Quantificatori generalizzati. I nostri esperimenti mostrano che il ragionamento fuzzy rappresenta ancora una grande sfida per gli LLM. Abbiamo anche scoperto che le tecniche attuali pensate per migliorare il ragionamento non portano sempre a Prestazioni migliori nei compiti di logica fuzzy. Curiosamente, abbiamo notato che le prestazioni degli LLM a volte calano all’aumentare delle loro dimensioni.

Essere in grado di ragionare bene è un fattore chiave per valutare quanto siano avanzati gli LLM. La maggior parte dei progressi nelle capacità di ragionamento è stata verificata utilizzando benchmark matematici che richiedono risposte chiare a domande semplici. Invece, gran parte del pensiero e del processo decisionale umano implica la gestione di incertezze e informazioni vaghe.

Il ragionamento fuzzy affronta l'incertezza e i dati morbidi ed è piuttosto diverso dai processi netti usati nei benchmark esistenti. Spesso utilizza un linguaggio naturale che non cattura conoscenze dettagliate. Ad esempio, i quantificatori generalizzati (GQ) come "pochi" o "la maggior parte" sono comunemente usati nel linguaggio per introdurre un certo livello di vaghezza. Un problema di ragionamento fuzzy utilizzando un GQ potrebbe essere: "I prezzi della benzina sono aumentati del 20% e poi la maggior parte rispetto al mese scorso. Di quanto dovrebbe un guidatore ridurre l'uso di benzina per mantenere i costi invariati?" Qui, la parola "maggior parte" aggiunge incertezza su quanto sia aumentato il prezzo e richiede una stima per risolvere il problema.

Tuttavia, i problemi che si basano su GQ per il ragionamento fuzzy non sono stati ampiamente studiati. Alcuni lavori esistenti esaminano la logica fuzzy probabilistica per migliorare le capacità di ragionamento. Altri studi cercano di applicare teorie probabilistiche fuzzy a problemi che collegano caratteristiche fuzzy con risultati, come il legame tra forte fumo e cancro. I metodi usati per definire caratteristiche fuzzy si basano spesso su dati limitati o euristici e non tengono conto del ragionamento complesso trovato nella vita reale.

In questa ricerca, ci proponiamo di valutare le sfide di ragionamento legate agli eventi fuzzy, che sono poco chiari e spesso rappresentati attraverso espressioni fuzzy di GQ, come "maggior parte nei prezzi della benzina." Abbiamo sviluppato un benchmark per il ragionamento fuzzy che coinvolge quantificatori generalizzati. Questo benchmark trasforma problemi matematici reali da dataset esistenti in domande a scelta multipla. Queste domande scambiano numeri esatti con GQ, costringendo i modelli a usare sia il ragionamento tipico, come calcoli matematici di base, sia il ragionamento fuzzy per interpretare i GQ.

La nostra valutazione di vari LLM mette in evidenza che il ragionamento fuzzy rimane una sfida difficile. Abbiamo notato un effetto di scala inversa in cui i modelli più piccoli performano meglio di quelli più grandi in molti casi. Inoltre, metodi di miglioramento comuni, come il tuning mirato per compiti matematici, non migliorano costantemente le prestazioni. Sorprendentemente, abbiamo scoperto che forti capacità di ragionamento matematico non predicono sempre il successo nel nostro benchmark.

Le Abilità di ragionamento-la capacità di trarre conclusioni da ciò che si conosce già-sono fondamentali per l’intelligenza umana e chiave per compiti come il processo decisionale e la risoluzione di problemi matematici. Recentemente, la capacità di risolvere problemi matematici ha guadagnato attenzione come misura di ragionamento negli LLM. Sono stati sviluppati molti metodi per aiutare gli LLM a risolvere problemi matematici, inclusi design basati su prompt. Altri studi suggeriscono di costruire dati specificamente per questo scopo e ulteriormente rifinire i modelli attraverso diversi metodi per migliorare le capacità di ragionamento. Considerando che strumenti esterni sono spesso utilizzati nei compiti di NLP, c’è interesse nell’integrare strumenti per migliorare il ragionamento matematico. Un altro approccio implica l’uso della programmazione per aiutare gli LLM a ragionare meglio.

I GQ sono spesso usati nella comunicazione e nei benchmark di NLP per suggerire le proporzioni di soddisfazione. Contribuiscono anche a molti difetti nei sistemi di NLP. Pertanto, usare i GQ è un modo pratico per introdurre informazioni fuzzy nella nostra valutazione.

Gli approcci esistenti per modellare la logica fuzzy nel linguaggio umano si basano su funzioni di mappatura predefinite. Sfortunatamente, queste funzioni sono tipicamente basate su regole semplici o dati limitati, rendendole inadatte a sfide di ragionamento complesse nel mondo reale. Nel nostro lavoro, utilizziamo LLM addestrati su enormi quantità di testi reali per dare senso all’ambiguità nei GQ e affrontare problemi complessi di ragionamento matematico.

Raccolta di Benchmark

Abbiamo raccolto problemi da due importanti dataset di problemi matematici: GSM8K e MathQA. GSM8K include problemi matematici elementari risolvibili principalmente tramite aritmetica di base. MathQA consiste in domande di matematica a scelta multipla di livello GRE e GMAT. Ci concentriamo su domande che contengono riferimenti percentuali.

I passi che abbiamo seguito per creare il benchmark sono:

  1. Identificazione di Domande Matematiche con Percentuali: Abbiamo filtrato le domande originali, mantenendo solo quelle con almeno una cifra percentuale tra limiti specificati.

  2. Mascheramento delle Menzioni Percentuali: Abbiamo sostituito menzioni specifiche di percentuali con un token [MASK] per formare una nuova domanda. Se erano presenti più percentuali, le abbiamo mascherate separatamente.

  3. Ricerca dei Quantificatori Più Vicini: Abbiamo identificato il GQ più vicino basato sulla sua forza media da un dataset di ragionamento sui quantificatori dove le forze sono annotate da umani.

  4. Costruzione del Compito: Abbiamo fornito la domanda e la risposta originale per dedurre quale GQ potesse sostituire l'informazione mascherata. Questo approccio riconosce che formulare ragionamenti fuzzy potrebbe essere più pratico che risolvere direttamente i problemi matematici.

Per valutare le prestazioni in modo approfondito, abbiamo progettato modalità facile e difficile in base a come sono presentate le scelte fuorvianti. Le opzioni errate nella modalità facile sono i GQ fuorvianti principali; nella modalità difficile, le opzioni errate sono selezionate casualmente da GQ fuorvianti. Abbiamo assemblato la domanda originale, la risposta e le scelte attraverso modelli.

In totale, il nostro benchmark consiste di 199 domande da GSM8K e 1.845 da MathQA. Ogni domanda ha in media 68,2 token, e i quantificatori più comuni sono "pochi," "quantità moderata," e "piccola quantità."

Abbiamo valutato diversi LLM open-source sul nostro benchmark, cercando di affrontare queste domande di ricerca:

  1. Quanto sono efficaci i metodi esistenti mirati a migliorare il ragionamento?
  2. Possiamo osservare leggi di scala nelle prestazioni?
  3. Le forti abilità di ragionamento matematico si trasferiscono al ragionamento fuzzy?

Abbiamo utilizzato strategie di decodifica greedy e istruzioni sul compito durante i nostri esperimenti, condotti su GPU ad alte prestazioni.

Abbiamo anche esaminato come diverse strategie di mascheramento hanno influenzato le prestazioni, trovando una forte correlazione positiva tra le diverse strategie di compito. I risultati complessivi hanno indicato che i compiti di ragionamento fuzzy erano difficili per gli LLM, con tassi di precisione per lo più tra 0,15 e 0,3.

Risultati

I risultati della nostra valutazione hanno mostrato che tutti i modelli hanno faticato con i compiti di ragionamento fuzzy, con un'accuratezza tipicamente intorno al 5% al 45%. Sorprendentemente, alcuni modelli più piccoli hanno performato meglio di quelli molto più grandi, come un modello più piccolo che ha superato i più grandi in accuratezza.

  1. Efficacia degli Miglioramenti: Tecniche come l'instruction-tuning hanno fornito alcuni miglioramenti, ma i benefici non sono stati consistenti in tutti i modelli. Ad esempio, un modello senza addestramento aggiuntivo ha superato la sua versione con instruction-tuning.

  2. Leggi di Scala: Sebbene aumentare le dimensioni dei modelli porti spesso a migliori prestazioni, non si applica in modo universale. Infatti, i modelli più grandi a volte hanno performato peggio, indicando un effetto di scala inversa per i compiti di ragionamento fuzzy.

  3. Trasferimento delle Competenze Matematiche: Forti abilità nel ragionamento matematico non si sono necessariamente tradotte in successo nel ragionamento fuzzy. I modelli che eccellevano nel ragionamento preciso spesso hanno avuto difficoltà con compiti coinvolgenti i GQ.

Conclusioni

Il ragionamento fuzzy è un'area meno esplorata del ragionamento negli LLM. I nostri risultati indicano che i compiti di ragionamento fuzzy rimangono una sfida significativa per i modelli esistenti. Inoltre, le strategie comuni per migliorare le abilità di ragionamento potrebbero non essere efficaci per i compiti di ragionamento fuzzy. Abbiamo osservato comportamenti diversi tra i modelli nell'affrontare il ragionamento fuzzy, suggerendo che un ulteriore esame di quest'area potrebbe essere utile per futuri sviluppi.

Mentre continuiamo a indagare sulle abilità di ragionamento fuzzy, riconosciamo che i problemi che abbiamo costruito potrebbero non riflettere completamente i processi di ragionamento naturali che si trovano nelle situazioni della vita reale. L'uso dei GQ è solo un aspetto del tema più ampio del ragionamento fuzzy nel linguaggio.

Questo lavoro apre la porta a ulteriori studi sul ragionamento fuzzy, che potrebbero portare a una migliore comprensione di come gli LLM interagiscono con informazioni imprecise.

Altro dagli autori

Articoli simili