Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Apprendimento automatico# Calcolo e linguaggio

Migliorare l'apprendimento delle preferenze tramite query basate su caratteristiche

Un nuovo metodo per capire le preferenze usando confronti a livello di caratteristiche.

― 5 leggere min


Tecniche di ApprendimentoTecniche di Apprendimentodelle Preferenze Avanzateutenti.comprensione delle preferenze degliNuovi metodi migliorano la nostra
Indice

Gli esseri umani usano spesso segnali sociali per esprimere ciò che gli piace e ciò che non gli piace. Questo ci aiuta a capire le loro Preferenze, che possono essere considerate come le loro "funzioni di ricompensa". Queste preferenze possono guidare le nostre decisioni, ma i metodi attuali per raccogliere questi dati di preferenza dalle persone spesso trascurano il contesto dell'apprendimento sociale.

In questo lavoro, vediamo come possiamo raccogliere meglio informazioni sul perché qualcuno preferisca un'opzione piuttosto che un'altra. Vogliamo porre domande che ci aiutino a capire meglio le caratteristiche specifiche che influenzano queste preferenze. Invece di chiedere solo quale opzione sia migliore, vogliamo anche sapere quali tratti specifici di quelle opzioni siano importanti.

Per fare questo, suggeriamo un nuovo modo di porre domande che combina domande semplici sì o no su esempi con domande sulle caratteristiche di quegli esempi. Poi usiamo questo input dettagliato per creare una comprensione più accurata di quali ricompense le persone cercano.

L'importanza del feedback umano

Capire cosa vogliono le persone può aiutare a migliorare la tecnologia, come far funzionare meglio i robot o creare software più sicuro. I metodi tradizionali che chiedono alle persone di scegliere tra due opzioni possono a volte ignorare intuizioni preziose. Ad esempio, se a qualcuno piace un fungo più di un altro, potrebbe scegliere quel fungo per il suo sapore, ma quel dettaglio importante spesso si perde.

Le persone hanno idee diverse su cosa renda buona un'opzione. Per esempio, uno chef potrebbe concentrarsi sul gusto, mentre un collezionista potrebbe cercare l'appeal visivo. Queste preferenze diverse significano che ogni individuo ha un insieme unico di tratti che conta per lui.

Se vediamo le persone come insegnanti che forniscono materiale di apprendimento piuttosto che semplici fornitori di etichette, possiamo raccogliere informazioni più ricche sulle loro preferenze. Questa prospettiva ci permette di creare modelli di addestramento migliori per gli algoritmi.

Un nuovo approccio all'apprendimento delle preferenze

Introduciamo una struttura per raccogliere preferenze che si concentra sia su confronti a livello di caratteristiche sia su confronti a livello di esempi. Il nostro approccio si basa su due idee principali:

  1. Confronti a livello di caratteristiche: Invece di chiedere solo quale esempio sia preferito, possiamo chiedere alle persone di confrontare tratti specifici. Ad esempio, invece di chiedere semplicemente se il Fungo A è migliore del Fungo B, possiamo chiedere se preferiscono il colore o la dimensione del Fungo A.

  2. Aumento dei dati pragmatici: Quando gli utenti ci dicono le loro preferenze, possiamo anche scoprire quali caratteristiche non gli interessano. Questo aiuta a creare nuovi Punti Dati, permettendoci di espandere il nostro Dataset di Addestramento e perfezionare ulteriormente i nostri modelli.

Testare il nostro approccio

Per vedere se il nostro nuovo metodo funziona, abbiamo condotto esperimenti in due aree: un compito di raccolta di funghi e un compito di prenotazione di voli. Volevamo determinare quanto fossero efficaci le domande a livello di caratteristiche nel definire accuratamente le ricompense delle persone con meno esempi.

Compito di raccolta di funghi

Nel compito di raccolta di funghi, i funghi erano definiti da diversi tratti, come colore, odore e dimensione. Abbiamo creato diversi modi di mostrare le preferenze chiedendo ai partecipanti di fare vari confronti tra i funghi.

I partecipanti sono stati sollevati nel scoprire che potevano ancora descrivere efficacemente le loro preferenze usando il nostro metodo. I risultati hanno mostrato che le domande a livello di caratteristiche hanno aiutato a raggiungere una comprensione più accurata delle preferenze delle persone in meno passi rispetto ai confronti tradizionali solo sugli esempi.

Compito di prenotazione di voli

Poi, ci siamo concentrati sulla prenotazione di voli, dove il confronto era meno visivo e più basato su diverse caratteristiche come prezzo, orario di arrivo e numero di scali. Abbiamo utilizzato input reali degli utenti per vedere quanto bene la nostra struttura gestisse descrizioni linguistiche più complesse.

Anche con feedback imperfetti e meno strutturati dagli utenti, il nostro metodo ha comunque funzionato bene per comprendere le preferenze degli utenti. Ha dimostrato la sua forza quando era legato a caratteristiche specifiche che interessavano le persone.

Studio sugli utenti

Abbiamo anche condotto uno studio sugli utenti per confrontare gli sforzi messi nelle nostre nuove domande basate sulle caratteristiche rispetto ai confronti tradizionali tra coppie. I partecipanti hanno assunto il ruolo di raccoglitori di funghi, usando le stesse funzioni di ricompensa dei nostri esperimenti precedenti.

Durante lo studio, abbiamo posto ai partecipanti varie domande sulle loro preferenze riguardo agli esempi di funghi e caratteristiche specifiche. Dopo, abbiamo raccolto feedback su come si sentivano riguardo al compito. Gli utenti non hanno trovato il nostro metodo significativamente più gravoso rispetto ai metodi tradizionali.

Conclusione

In sintesi, abbiamo esplorato un nuovo modo per conoscere le preferenze delle persone attraverso l'uso di domande basate sulle caratteristiche. Tenendo conto di ciò che gli utenti dicono riguardo alle loro preferenze e ai tratti che apprezzano, possiamo creare modelli migliori che riflettono le esigenze individuali.

Questa comprensione più profonda può aiutare a migliorare varie tecnologie permettendo loro di allinearsi più da vicino ai desideri umani. Il lavoro futuro potrebbe esplorare come migliorare ulteriormente questo processo per garantire che poniamo le domande giuste mentre lavoriamo con l'input degli utenti.

Fonte originale

Titolo: Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input

Estratto: Humans use social context to specify preferences over behaviors, i.e. their reward functions. Yet, algorithms for inferring reward models from preference data do not take this social learning view into account. Inspired by pragmatic human communication, we study how to extract fine-grained data regarding why an example is preferred that is useful for learning more accurate reward models. We propose to enrich binary preference queries to ask both (1) which features of a given example are preferable in addition to (2) comparisons between examples themselves. We derive an approach for learning from these feature-level preferences, both for cases where users specify which features are reward-relevant, and when users do not. We evaluate our approach on linear bandit settings in both vision- and language-based domains. Results support the efficiency of our approach in quickly converging to accurate rewards with fewer comparisons vs. example-only labels. Finally, we validate the real-world applicability with a behavioral experiment on a mushroom foraging task. Our findings suggest that incorporating pragmatic feature preferences is a promising approach for more efficient user-aligned reward learning.

Autori: Andi Peng, Yuying Sun, Tianmin Shu, David Abel

Ultimo aggiornamento: 2024-05-23 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2405.14769

Fonte PDF: https://arxiv.org/pdf/2405.14769

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili