Migliorare i LLM con l'apprendimento potenziato dagli strumenti
TP-LLaMA migliora il processo decisionale imparando sia dai successi che dai fallimenti.
― 5 leggere min
Indice
- Sviluppo degli LLM con Strumenti
- ToolLLaMA e le sue Limitazioni
- Un Nuovo Framework per l'Addestramento
- Costruzione dei Dati di Preferenza
- Affinamento del Modello
- Valutazione del Nuovo Modello
- Risultati dagli Esperimenti
- Efficienza e Generalizzazione
- Intuizioni dai Tentativi Falliti
- Conclusione
- Fonte originale
- Link di riferimento
Negli ultimi anni, i grandi modelli linguistici (LLM) hanno dimostrato di avere ottime abilità nella comprensione del linguaggio, nella generazione e nel ragionamento. Tuttavia, questi modelli hanno delle limitazioni. Faticano ad accedere a informazioni in tempo reale e a volte affrontano sfide con compiti precisi. Per affrontare questi problemi, i ricercatori hanno iniziato ad aumentare i LLM con strumenti che consentono loro di interagire con applicazioni esterne, di solito tramite API. Questi LLM potenziati con strumenti possono aiutare gli utenti a svolgere una vasta gamma di compiti in modo più efficace.
Sviluppo degli LLM con Strumenti
Gli LLM potenziati con strumenti migliorano le performance dei modelli tradizionali dando loro la possibilità di usare strumenti esterni per vari compiti. Questa interazione aiuta gli LLM a fungere da intermediari efficaci, colmando il divario tra gli utenti e applicazioni complesse. I recenti progressi in quest'area hanno portato a modelli in grado di eseguire compiti come la navigazione web e il ragionamento multimodale.
ToolLLaMA e le sue Limitazioni
Un modello significativo in questo campo è ToolLLaMA, che utilizza un metodo chiamato decision tree basato su depth-first search (DFSDT) per ragionare con API del mondo reale. Anche se ToolLLaMA mostra prestazioni migliorate nella pianificazione e nel Prendere decisioni rispetto ai metodi più vecchi, ha una limitazione notevole. Utilizza solo i percorsi di successo dagli alberi decisionali per l'addestramento. Questo approccio ignora insegnamenti preziosi dai tentativi falliti durante il processo di ragionamento.
Un Nuovo Framework per l'Addestramento
Per migliorare le mancanze dei modelli esistenti, viene proposto un nuovo framework. Questo framework mira a ottimizzare le traiettorie di inferenza, il che significa migliorare il processo decisionale degli LLM incorporando intuizioni dagli errori commessi lungo il cammino. Utilizzando Dati di Preferenza estratti dagli alberi decisionali, il modello può sfruttare sia i tentativi riusciti che quelli non riusciti per affinare le sue capacità di apprendimento e ragionamento.
Costruzione dei Dati di Preferenza
Il primo passo in questo processo è costruire un nuovo dataset chiamato ToolPreference. Questo dataset si concentra sulla creazione di coppie di preferenza basate sulle azioni intraprese durante il ragionamento. Considera sia i percorsi di successo che i fallimenti, permettendo una comprensione più completa di come ottimizzare le decisioni future.
La costruzione del dataset ToolPreference implica due metodi chiave: coppie di campioni di preferenza basate su percorso e su passo. Il metodo basato su percorso connette percorsi di successo e di fallimento alla fine degli alberi decisionali, mentre il metodo basato su passo cattura le differenze tra ogni fase di ragionamento, fornendo dettagli più fini che possono migliorare le abilità inferenziali del modello.
Affinamento del Modello
Dopo aver sviluppato il dataset ToolPreference, la fase successiva implica l'affinamento dell'LLM utilizzando questo dataset arricchito. Il modello prima subisce un affinamento supervisionato (SFT) con traiettorie di successo. Successivamente, viene applicato l'addestramento di ottimizzazione della preferenza diretta (DPO). Questo metodo consente al modello di allineare ulteriormente le sue preferenze di ragionamento con le intuizioni ottenute sia dai tentativi riusciti che da quelli non riusciti.
Valutazione del Nuovo Modello
Per valutare l'efficacia di questo nuovo approccio, vengono condotti esperimenti utilizzando vari scenari di compito. Le metriche di valutazione includono il tasso di successo e il tasso di vittoria. Il tasso di successo misura la probabilità che il modello fornisca correttamente una risposta entro un numero limitato di passaggi, mentre il tasso di vittoria quantifica quanto spesso le risposte del modello sono preferite rispetto a quelle di altri modelli.
Risultati dagli Esperimenti
I risultati indicano che il nuovo modello, noto come ToolPrefer-LLaMA (TP-LLaMA), supera significativamente i modelli precedenti in vari scenari. TP-LLaMA mostra un tasso di successo e un tasso di vittoria più elevati, dimostrando capacità migliorate nel prendere decisioni e una maggiore adattabilità a strumenti e istruzioni nuove.
Efficienza e Generalizzazione
Un altro aspetto importante del nuovo modello è la sua efficienza. Gli esperimenti di efficienza rivelano che TP-LLaMA richiede meno passaggi di inferenza per raggiungere conclusioni di successo rispetto ai modelli che hanno utilizzato solo traiettorie di successo per l'addestramento. Questo miglioramento nella velocità di ragionamento può essere attribuito alla capacità del modello di evitare esplorazioni inutili durante il processo decisionale.
Attraverso test approfonditi, TP-LLaMA mostra anche forti abilità di generalizzazione, consentendogli di gestire nuovi strumenti e istruzioni in modo efficace. Questo è un vantaggio cruciale, poiché consente al modello di rimanere affidabile in una vasta gamma di situazioni.
Intuizioni dai Tentativi Falliti
Il concetto di apprendere dagli insuccessi è fondamentale in questo framework. I modelli tradizionali potrebbero scartare gli insuccessi come non importanti, ma TP-LLaMA sfrutta queste esperienze per migliorare le sue prestazioni. Considerando cosa è andato storto nei tentativi precedenti, il modello è meglio attrezzato per prendere decisioni informate in futuro.
Questo approccio si allinea bene con i principi dell'apprendimento umano, poiché le persone spesso crescono dai propri errori. La capacità del framework di integrare queste intuizioni nel suo processo di addestramento segna un passo significativo avanti nello sviluppo degli LLM potenziati con strumenti.
Conclusione
In generale, il framework proposto per l'ottimizzazione delle traiettorie di inferenza migliora notevolmente le capacità di ragionamento degli LLM potenziati con strumenti. Espandendo lo spazio di apprendimento attraverso l'integrazione di intuizioni sugli errori e impiegando un dataset di preferenze completo, TP-LLaMA mostra promise nel migliorare prestazioni ed efficienza. Il lavoro futuro potrebbe esplorare ulteriori avanzamenti, inclusa la potenziale transizione da una struttura ad albero di pensiero a un grafo di pensiero per una capacità di ragionamento ancora più ricca.
Mentre i ricercatori continuano a perfezionare questi modelli, le potenziali applicazioni per gli LLM potenziati con strumenti sono vaste. Con un migliore accesso a informazioni in tempo reale e abilità decisionali superiori, questi modelli potrebbero servire come strumenti potenti in vari campi, dal servizio clienti all'analisi dei dati, aprendo la strada a una nuova generazione di sistemi intelligenti.
Titolo: Advancing Tool-Augmented Large Language Models: Integrating Insights from Errors in Inference Trees
Estratto: Tool-augmented large language models (LLMs) leverage tools, often in the form of APIs, to enhance their reasoning capabilities on complex tasks, thus taking on the role of intelligent agents interacting with the real world. The recently introduced ToolLLaMA model by Qin et al. [2024] utilizes the depth-first search-based decision tree (DFSDT) method for reasoning with $16000+$ real-world APIs, which effectively improves the planning and inferencing performance of tool-augmented LLMs compared to traditional chain reasoning approaches. However, their approach only employs successful paths from decision trees (also called inference trees) for supervised fine-tuning (SFT) during training, which does not fully exploit the advantages of the tree of thought. In this study, we propose an inference trajectory optimization framework based on the preference data extracted from decision trees to address this limitation. We first introduce a novel method for constructing preference data from the tree of thought, capitalizing on the failed explorations previously overlooked in the trees. Specifically, we generate an effective step-wise preference dataset, named ToolPreference, for tool use based on the ToolBench dataset. In the subsequent training phase, we first fine-tune the LLM with tool-usage expert trajectories and then use these step-wise preference pairs for direct preference optimization (DPO) to update the policy of the LLM, resulting in our ToolPrefer-LLaMA (TP-LLaMA) model. Our experiments demonstrate that by obtaining insights from errors in inference trees, TP-LLaMA significantly outperforms the baselines across almost all test scenarios by a large margin and exhibits better generalization capabilities with unseen APIs. At the same time, TP-LLaMA has also demonstrated superior reasoning efficiency compared to the baselines, making it more suitable for complex tool-usage reasoning tasks.
Autori: Sijia Chen, Yibo Wang, Yi-Feng Wu, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Lijun Zhang
Ultimo aggiornamento: 2024-06-11 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2406.07115
Fonte PDF: https://arxiv.org/pdf/2406.07115
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.