Sfruttare il feedback naturale per l'addestramento del modello
Uno studio su come raccogliere e usare il feedback degli utenti per migliorare i modelli di linguaggio.
― 7 leggere min
Indice
- Importanza del Feedback Umano
- Tipi di Feedback Naturale
- Prevalenza del Feedback Naturale
- Tassonomia del Feedback
- Annotazione Manuale del Feedback
- Crescita del Feedback nel Tempo
- Estrazione Automatica del Feedback
- Risultati dell'Estrazione del Feedback
- Creazione di un Dataset di Feedback Naturale
- Addestramento con Feedback Estratto
- Ulteriore Valutazione con GPT
- Contrasto con Campioni Casuali
- Utilizzo Efficace del Feedback Negativo
- Esplorazione dell'Impatto della Tassonomia
- Direzioni Future
- Conclusione
- Fonte originale
- Link di riferimento
Il Feedback Umano è importante per costruire modelli linguistici. Però, ottenere questo feedback può essere costoso e difficile da scalare. Presentiamo un modo per raccogliere facilmente il feedback che gli utenti danno mentre parlano con i modelli di chat e usarlo per l'addestramento. Studi precedenti mostrano che il feedback reale è spesso migliore di quello automatico, poiché porta a meno errori e pregiudizi.
Nella nostra ricerca, abbiamo esaminato i dati delle conversazioni per vedere quanto feedback naturale è incluso. Abbiamo scoperto che quasi il 30% degli scambi in chat contiene feedback chiaro. Usando il nostro metodo su oltre un milione di conversazioni, abbiamo raccolto centinaia di migliaia di esempi di feedback. Allenare il nostro modello con questo feedback ha portato a miglioramenti significativi rispetto ai modelli standard.
Importanza del Feedback Umano
Il feedback umano è una parte chiave dell'addestramento dei modelli. Il processo di addestramento di solito ha due fasi principali: prima, una fase di pre-addestramento, e poi una fase di allineamento in cui il modello viene perfezionato usando dati di feedback. Più feedback di solito significa modelli migliori. Tuttavia, raccogliere questi dati richiede spesso molto impegno umano, rendendo difficile raccoglierli su larga scala.
Le persone danno naturalmente feedback durante le conversazioni. Spesso mostrano soddisfazione o insoddisfazione solo attraverso le loro risposte. Vogliamo usare questo feedback naturale nei nostri modelli.
Tipi di Feedback Naturale
Il feedback naturale può assumere forme diverse. Ad esempio, se un utente è contento di una risposta, potrebbe porre la prossima domanda senza alcun feedback esplicito. Nel nostro lavoro, ci concentriamo su feedback chiaro e diretto, come quando gli utenti dicono "grazie" o segnalano un errore con frasi come "è sbagliato."
Con strumenti come ChatGPT diventati popolari, c'è ora un sacco di dati disponibili dalle interazioni degli utenti con questi modelli. Il feedback naturale, basato sulle reali risposte degli utenti, tende ad essere più affidabile e più facile da verificare rispetto al feedback generato dal modello stesso.
Prevalenza del Feedback Naturale
Per vedere quanto sia comune il feedback naturale, abbiamo annotato alcuni Dati di conversazione. Abbiamo scoperto che le conversazioni recenti hanno più feedback rispetto a quelle più vecchie. Questo potrebbe essere perché ora gli utenti hanno aspettative più alte e sono più abili nel conversare con i modelli.
Abbiamo sviluppato un modo per estrarre automaticamente questo feedback dalle interazioni umano-modello. Il nostro metodo mostra buoni risultati nell'identificare il feedback in modo accurato. Abbiamo applicato il nostro metodo a un milione di conversazioni e creato un dataset di feedback naturale.
Tassonomia del Feedback
Abbiamo categorizzato il feedback naturale in cinque tipi:
- Ripetere o Riformulare: L'utente ripete la sua domanda o richiesta per chiarire.
- Far notare con Correzione: L'utente segnala un errore e spiega l'informazione corretta.
- Far notare senza Correzione: L'utente indica un errore senza dare una correzione.
- Chiedere Chiarimenti: L'utente cerca ulteriori informazioni sulla risposta precedente.
- Feedback Positivo: L'utente riconosce che il modello ha fatto bene, spesso dicendo "grazie."
Queste categorie ci aiutano ad analizzare come viene dato il feedback e possono migliorare l'addestramento dei modelli.
Annotazione Manuale del Feedback
Per capire la distribuzione dei tipi di feedback, abbiamo annotato manualmente un insieme di conversazioni. Dopo aver filtrato contenuti irrilevanti o offensivi, abbiamo trovato un numero significativo di conversazioni che includevano feedback.
Abbiamo condotto un controllo di qualità con un secondo annotatore per vedere quanto bene le nostre annotazioni iniziali corrispondeva. Questo ha confermato che il nostro metodo per identificare il feedback è affidabile.
Crescita del Feedback nel Tempo
Abbiamo confrontato modelli più vecchi con quelli attuali e abbiamo notato che i modelli più nuovi ricevono più feedback. Questo suggerisce che man mano che i modelli evolvono, anche le interazioni degli utenti crescono, portando a feedback più ricchi. Più utenti si aspettano che le loro conversazioni con i modelli sembrino più umane.
Estrazione Automatica del Feedback
Abbiamo progettato un metodo per ottenere automaticamente feedback dalle conversazioni. Abbiamo istruito un modello linguistico a trovare parti delle risposte degli utenti che contengono feedback e a contrassegnarle di conseguenza. L'abbiamo implementato su un ampio dataset, permettendoci di generare una vasta collezione di campioni di feedback.
Risultati dell'Estrazione del Feedback
Il nostro metodo è stato in grado di identificare e classificare un gran numero di istanze di feedback in modo accurato. L'analisi ha mostrato che i tipi di feedback più comuni erano "Chiedere Chiarimenti" e "Ripetere o Riformulare."
Sebbene il nostro metodo a volte abbia scambiato risposte non-feedback per feedback, molte di queste istanze hanno comunque fornito segnali preziosi che possono essere utilizzati per l'addestramento.
Creazione di un Dataset di Feedback Naturale
Usando annotazioni manuali e il nostro metodo di estrazione automatica, abbiamo compilato un ampio dataset di feedback naturale da un milione di conversazioni. Abbiamo osservato che le conversazioni contenenti feedback avevano un numero medio di scambi più alto rispetto a quelle senza.
I dati di feedback estratti includevano un mix di esempi positivi e negativi, con una quantità significativa di feedback disponibile per addestrare i modelli.
Addestramento con Feedback Estratto
Per dimostrare l'utilità dei nostri dati di feedback, abbiamo addestrato diversi modelli e osservato miglioramenti nelle prestazioni. I modelli addestrati sul nostro dataset di feedback hanno mostrato guadagni significativi rispetto alle loro versioni pre-addestrate.
Abbiamo effettuato valutazioni umane dove i modelli addestrati sono stati valutati meglio rispetto ai loro omologhi di base. Abbiamo anche testato modelli aperti per giudicare la qualità delle risposte; tuttavia, erano meno efficaci nel distinguere tra modelli addestrati e non addestrati all'inizio.
Ulteriore Valutazione con GPT
Abbiamo usato GPT-4 come valutatore nei nostri esperimenti e confermato che i nostri modelli addestrati hanno funzionato meglio. L'uso di più metodi di valutazione ha rafforzato la nostra conclusione che il feedback estratto è prezioso.
Contrasto con Campioni Casuali
Come ulteriore test, abbiamo confrontato l'addestramento sui nostri esempi positivi estratti con l'addestramento su esempi di chat casuali. I modelli addestrati con il nostro feedback hanno mostrato chiaramente risultati migliori.
Utilizzo Efficace del Feedback Negativo
Volevamo anche vedere come il feedback negativo potesse essere utilizzato nell'addestramento. Abbiamo usato il metodo KTO, che consente di addestrare con dati di preferenza non abbinati. Concentrarsi sui segnali negativi più forti si è rivelato utile per ulteriore addestramento dei nostri modelli.
Esplorazione dell'Impatto della Tassonomia
Abbiamo esaminato come le nostre categorie di feedback influenzassero il processo di estrazione. Testando diverse tassonomie, abbiamo confermato che avere categorie chiare ha aiutato a migliorare l'accuratezza dell'estrazione.
Quando abbiamo provato a usare meno categorie, è stato evidente che, anche se sembrava più facile, spesso portava a confusione e estrazioni inaccurate.
Direzioni Future
Il nostro lavoro sottolinea l'importanza del feedback naturalmente occorrente. Lo sviluppo continuo dei modelli potrebbe portare a feedback ancora più abbondanti e di migliore qualità. La ricerca futura potrebbe concentrarsi sull'integrazione del feedback nelle interazioni in tempo reale.
Ci aspettiamo anche che, man mano che più persone usano assistenti vocali, la quantità di feedback raccolto aumenterà, portando a dati più significativi per migliorare i modelli.
Conclusione
In sintesi, abbiamo dimostrato con successo che il feedback naturalmente occorrente è abbondante nelle interazioni umano-modello. Il nostro metodo di estrazione ci ha permesso di raccogliere una quantità significativa di feedback utile, che abbiamo utilizzato per addestrare modelli. I risultati promettenti mostrano il potenziale per usare questo feedback nello sviluppo dei modelli per migliorare il loro allineamento con le preferenze umane. Crediamo ci sia molto spazio per miglioramenti e ulteriori esplorazioni in quest'area.
Titolo: Learning from Naturally Occurring Feedback
Estratto: Human feedback data is a critical component in developing language models. However, collecting this feedback is costly and ultimately not scalable. We propose a scalable method for extracting feedback that users naturally include when interacting with chat models, and leveraging it for model training. We are further motivated by previous work that showed there are also qualitative advantages to using naturalistic (rather than auto-generated) feedback, such as less hallucinations and biases. We manually annotated conversation data to confirm the presence of naturally occurring feedback in a standard corpus, finding that as much as 30% of the chats include explicit feedback. We apply our method to over 1M conversations to obtain hundreds of thousands of feedback samples. Training with the extracted feedback shows significant performance improvements over baseline models, demonstrating the efficacy of our approach in enhancing model alignment to human preferences.
Autori: Shachar Don-Yehiya, Leshem Choshen, Omri Abend
Ultimo aggiornamento: 2024-07-15 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.10944
Fonte PDF: https://arxiv.org/pdf/2407.10944
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/shachardon/naturally_occurring_feedback
- https://huggingface.co/datasets/shachardon/naturally_occurring_feedback
- https://huggingface.co/sfairXC/FsfairX-LLaMA3-RM-v0.1
- https://huggingface.co/datasets/CollectiveCognition/chats-data-2023-10-16?row=11
- https://huggingface.co/datasets/lmsys/lmsys-chat-1m
- https://github.com/ContextualAI/HALOs