Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

Avanzamenti nella generazione di testi lunghi per modelli di intelligenza artificiale

Nuovi metodi di formazione migliorano la capacità dei modelli linguistici di creare testi lunghi e dettagliati.

― 5 leggere min


Modelli di IA per testiModelli di IA per testilunghicomplessi.linguistici per compiti di scritturaNuovi metodi migliorano i modelli
Indice

Negli ultimi anni, c'è stato un crescente interesse nel migliorare il modo in cui i modelli di linguaggio seguono le Istruzioni per generare pezzi di testo più lunghi. La maggior parte degli studi si è concentrata su compiti brevi e semplici, ma molte applicazioni del mondo reale richiedono che i modelli gestiscano richieste complesse che coinvolgono più regole. Questo articolo discute un nuovo approccio per addestrare i modelli a seguire meglio queste istruzioni dettagliate per generare testi lunghi.

La sfida della generazione di testi lunghi

I modelli di linguaggio, come quelli sviluppati nell'AI, spesso faticano a produrre testi lunghi coerenti e pertinenti, specialmente quando le istruzioni contengono molti requisiti specifici. I dataset tradizionali presentano tipicamente istruzioni brevi abbinate a risposte concise. Tuttavia, c'è bisogno di modelli che possano gestire compiti più dettagliati, come scrivere rapporti estesi o creare racconti coinvolgenti che rispettino vari Vincoli.

Creazione di un nuovo dataset

Per affrontare questo problema, i ricercatori hanno creato un nuovo dataset con 20.000 esempi di testi lunghi, scritti da umani. Ogni testo è collegato a istruzioni generate da un modello di linguaggio, strutturate per includere più vincoli che guidano il processo di scrittura. Raccogliere feedback umano su questi testi lunghi si è rivelato difficile, portando allo sviluppo di un nuovo metodo di addestramento.

Metodo I-ORPO Istruttivo

Il nuovo metodo di addestramento, chiamato Instructional ORPO (I-ORPO), utilizza un approccio diverso per fornire feedback al modello. Invece di fare affidamento sulla valutazione umana, che può essere complicata e costosa per testi lunghi, l'I-ORPO utilizza istruzioni modificate che introducono errori. Questo consente al modello di imparare dagli sbagli pur essendo guidato da un obiettivo complessivo più chiaro.

Affinamento del modello

Il modello principale utilizzato in questo lavoro è chiamato Mistral-7B-Instruct-v0.2. I ricercatori hanno Affinato questo modello utilizzando sia il nuovo dataset che il metodo I-ORPO. L'obiettivo era aumentare la capacità del modello di generare testi più lunghi che rispettassero comunque i requisiti forniti senza perdere qualità.

Risultati del modello

I modelli affinati hanno aumentato significativamente la lunghezza delle loro uscite, producendo costantemente pezzi che mediamente variavano tra 4.800 e 5.100 token di lunghezza. Questo output è molto più lungo rispetto a quanto ottenuto dai modelli precedenti. I ricercatori hanno valutato i modelli sia automaticamente che tramite giudizio umano per determinare quanto bene seguivano i vincoli forniti.

Valutazioni automatiche

Nei test automatici, i modelli affinati hanno mantenuto un basso livello di ripetizione nelle loro uscite, che è un problema comune nella generazione di testi lunghi. I risultati hanno mostrato che questi modelli potevano generare testi più lunghi con una varietà di idee senza cadere in schemi ripetitivi.

Valutazione umana

Giudici umani hanno valutato l'output del modello I-ORPO rispetto a un modello di affinamento supervisionato tradizionale. Hanno constatato che il modello I-ORPO produceva testi più coerenti, coinvolgenti e informativi. Sebbene entrambi i modelli avessero punti di forza, il modello I-ORPO è stato generalmente preferito per la sua capacità di intrecciare vincoli nelle sue narrazioni in modo più efficace.

Composizione del dataset

Il dataset utilizzato in questa ricerca è composto da testi provenienti da varie fonti, tra cui fan fiction, libri e scrittura informale. I testi sono stati accuratamente selezionati per garantire che soddisfacessero standard di qualità e fossero abbastanza lunghi da servire come buoni esempi per il rispetto delle istruzioni.

Generazione di istruzioni

Per creare le istruzioni associate ai testi, i ricercatori hanno utilizzato una tecnica chiamata backtranslation delle istruzioni. Questo ha comportato prendere un pezzo scritto da un umano e generare istruzioni potenziali che potessero guidare la scrittura di testi simili. Le istruzioni originali fornivano un obiettivo chiaro per il modello, mentre le versioni corrotte aiutavano il modello a imparare ad adattarsi e migliorare.

Gestire istruzioni complesse

Un aspetto chiave del lavoro è stato testare quanto bene i modelli potessero gestire istruzioni complesse. I ricercatori hanno scoperto che aumentare il numero di vincoli nelle istruzioni in input portava generalmente a una migliore performance del modello. Questo indica che istruzioni più dettagliate possono aiutare i modelli a generare risposte più accurate e soddisfacenti.

Il ruolo degli annotatori umani

Sebbene le valutazioni automatiche forniscano informazioni utili, il feedback umano è stato fondamentale per comprendere le prestazioni del modello. Gli annotatori hanno valutato quanto bene i testi generati soddisfacevano i vincoli forniti e hanno fornito approfondimenti sulla qualità delle narrazioni. Hanno notato che, sebbene i modelli producessero risultati impressionanti, alcune uscite faticavano ancora con la coerenza e la completezza.

Conclusione

In sintesi, la ricerca presenta un approccio promettente per migliorare la generazione di testi lunghi nei modelli di linguaggio. Creando un nuovo dataset e implementando il metodo di addestramento I-ORPO, i modelli sono stati in grado di generare testi significativamente più lunghi e coerenti che rispettavano istruzioni complesse. Questo lavoro evidenzia la necessità di uno sviluppo continuo nel campo dei modelli di linguaggio, specialmente poiché sono sempre più utilizzati in varie applicazioni che richiedono risposte dettagliate e lunghe.

Direzioni future

In futuro, i ricercatori intendono espandere questo lavoro testandolo su altri modelli di linguaggio. Pianificano anche di indagare come diversi fattori, come la lunghezza delle istruzioni e la natura delle istruzioni, possano influenzare le prestazioni del modello. Questa ricerca apre la strada a ulteriori studi che potrebbero migliorare le capacità dei modelli di linguaggio nella gestione di compiti di scrittura complessi in vari campi.

Fonte originale

Titolo: Suri: Multi-constraint Instruction Following for Long-form Text Generation

Estratto: Existing research on instruction following largely focuses on tasks with simple instructions and short responses. In this work, we explore multi-constraint instruction following for generating long-form text. We create Suri, a dataset with 20K human-written long-form texts paired with LLM-generated backtranslated instructions that contain multiple complex constraints. Because of prohibitive challenges associated with collecting human preference judgments on long-form texts, preference-tuning algorithms such as DPO are infeasible in our setting; thus, we propose Instructional ORPO (I-ORPO), an alignment method based on the ORPO algorithm. Instead of receiving negative feedback from dispreferred responses, I-ORPO obtains negative feedback from synthetically corrupted instructions generated by an LLM. Using Suri, we perform supervised and I-ORPO fine-tuning on Mistral-7b-Instruct-v0.2. The resulting models, Suri-SFT and Suri-I-ORPO, generate significantly longer texts (~5K tokens) than base models without significant quality deterioration. Our human evaluation shows that while both SFT and I-ORPO models satisfy most constraints, Suri-I-ORPO generations are generally preferred for their coherent and informative incorporation of the constraints. We release our code at https://github.com/chtmp223/suri.

Autori: Chau Minh Pham, Simeng Sun, Mohit Iyyer

Ultimo aggiornamento: 2024-10-01 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2406.19371

Fonte PDF: https://arxiv.org/pdf/2406.19371

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili