Il ruolo dell'IA nel guidare il comportamento umano
L'IA può influenzare come le persone svolgono compiti in contesti collaborativi.
― 12 leggere min
Indice
Quando l'AI interagisce con gli esseri umani, non cambia solo l'ambiente; può anche influenzare come le persone si comportano, le loro intenzioni e strategie. La maggior parte degli studi su questo ha assunto che gli esseri umani si comportino quasi perfettamente, come si vede nei giochi competitivi o in situazioni come le auto a guida autonoma che condividono la strada con i conducenti umani. Tuttavia, il nostro focus è su come l'AI può influenzare persone che potrebbero non performare al meglio a causa di pregiudizi o mancanza di informazioni. Ad esempio, se le persone faticano a lavorare insieme su un compito, come può un'AI aiutarle a fare meglio? Assumere che le persone agiranno in modo ottimale non aiuterà; l'AI deve imparare dalle interazioni reali con gli esseri umani. Tuttavia, provare idee con le persone online può essere rischioso, e creare un simulatore dettagliato della situazione è spesso complicato.
Per affrontare questo, proponiamo di imparare da un insieme di dati di interazioni tra umani. Crediamo che utilizzare l'Apprendimento per rinforzo offline (RL) consenta all'AI di influenzare efficacemente il comportamento subottimale degli esseri umani combinando diversi aspetti delle interazioni umane osservate.
I nostri risultati suggeriscono che il RL offline può affrontare efficacemente due sfide principali nell'influenzare il comportamento. Prima di tutto, dimostriamo che analizzando i dati di varie interazioni umane-nessuna delle quali dimostra un'influenza di successo-l'AI può comunque apprendere strategie per aiutare gli esseri umani a performare meglio, anche in compiti nuovi. In secondo luogo, dimostriamo che comprendendo il comportamento umano, il RL offline può influenzare non solo le azioni delle persone, ma anche le loro strategie, adattandosi ai cambiamenti nel loro modo di pensare e comportarsi.
In molte aree come giochi, assistenza sanitaria, sistemi di raccomandazione e robotica, l'AI interagisce con le persone e influenza il loro comportamento. La maggior parte degli studi precedenti ha esaminato casi in cui gli esseri umani agivano quasi perfettamente, come nei giochi strategici come il Go o nelle situazioni di guida autonoma in cui l'AI cerca di influenzare i conducenti a rallentare. Il nostro lavoro si differenzia puntando a situazioni in cui le persone reali possono agire in modo irrazionale o non ottimale, come nei Compiti Collaborativi con altri che potrebbero non essere esperti o nelle interazioni sociali che non sono strategiche.
Ad esempio, immagina un robot e un umano che lavorano insieme per cucinare un pasto. L'umano potrebbe iniziare a tagliare i pomodori per un'insalata perché sono vicini, anche se sarebbe meglio che il robot si occupasse dell'insalata mentre l'umano prepara il piatto principale. Il robot potrebbe cercare di incoraggiare l'umano a impiattare il piatto mettendo un piatto accanto a lui o addirittura bloccando l'accesso ai pomodori. Questi tipi di strategie non sarebbero necessari se l'umano si comportasse con una comprensione completa di cosa dovrebbe essere fatto, ed è per questo che è cruciale considerare come si comportano realmente gli umani e come possono essere influenzati dalle azioni del robot.
Le ricerche precedenti sull'influenzare il comportamento subottimale si sono affidate principalmente a modelli scriptati o semplicistici di come le persone agiscono. Tuttavia, il comportamento umano è influenzato da molti pregiudizi cognitivi, rendendolo complesso e difficile da simulare accuratamente. Questo significa che insegnare a un'AI a influenzare il comportamento dovrà probabilmente utilizzare dati umani reali. Tuttavia, testare idee con le persone online può essere pericoloso o impraticabile.
Quindi, come possiamo trovare strategie di influenza efficaci quando abbiamo solo dati dalle interazioni umane? La nostra intuizione chiave è che l'AI può comunque imparare a influenzare il comportamento anche quando non ha visto dimostrazioni esplicite di influenza. Specificamente, l'apprendimento per rinforzo offline può imparare a influenzare ricomponendo diverse parti del comportamento umano osservate in varie interazioni. Un semplice esempio di questo in una situazione di cucina illustra l'idea: in alcune interazioni, una persona commette un errore e va a prendere le cipolle invece di impiattare, mentre in un'altra, prende un piatto vicino. Combinando questi due comportamenti, l'AI impara che posizionare un piatto accanto all'umano può incoraggiarlo a impiattare il piatto.
Il nostro principale contributo è dimostrare che il RL offline può superare due sfide significative nell'influenzare il comportamento subottimale umano. Innanzitutto, dimostriamo che i metodi di RL offline esistenti possono derivare strategie per influenzare le azioni umane anche quando non ci sono esempi di tali strategie nei dati di addestramento. In secondo luogo, migliorando gli algoritmi di RL offline con intuizioni sulle strategie nascoste degli umani, possiamo consentire all'AI di influenzare non solo le azioni degli umani, ma anche il loro approccio complessivo.
Nel campo dell'apprendimento per rinforzo, gli agenti cercano di imparare come fare scelte che massimizzino le loro ricompense nel tempo. In questo caso, siamo interessati a come l'AI può imparare a influenzare le azioni e le strategie dei partner umani in compiti collaborativi.
Lavori Correlati
C'è stato un notevole lavoro sull'uso dell'apprendimento per rinforzo in ambienti multi-agente, dove più agenti operano in situazioni competitive o cooperative. I metodi tradizionali spesso modellano come le azioni di tutti gli agenti influenzino l'ambiente e possono coinvolgere un addestramento centralizzato per tener conto delle azioni degli altri agenti. Alcuni approcci hanno persino introdotto canali di comunicazione affinché gli agenti potessero condividere le loro strategie. Tuttavia, il nostro lavoro si concentra specificamente su come l'AI può interagire con gli esseri umani, che potrebbero non seguire schemi prevedibili o razionali.
Recentemente, c'è stata anche un'impennata di ricerche focalizzate sulla progettazione di AI che interagisce con gli esseri umani. Le prime iniziative includevano il training di agenti per superare i giocatori umani in giochi competitivi come Go e Poker, dove il fine era modellare l'umano come quasi ottimale. Tuttavia, nei compiti reali, trattare gli umani come decisori perfetti non è sufficiente, specialmente in contesti collaborativi o sociali.
Ad esempio, lavori precedenti hanno esaminato le sfide di coordinamento con gli umani in ambienti simili a giochi. Tuttavia, noi ci differenziamo da quel lavoro concentrandoci sull'influenzare il comportamento piuttosto che semplicemente tenerne conto. Consideriamo i compiti in cui un'AI deve cambiare come un umano si comporta per avere successo. Fondamentale nel nostro approccio è che non presumiamo di avere accesso a un simulatore e dobbiamo invece imparare puramente osservando le interazioni passate tra umani.
La nostra indagine mira a formare agenti AI per incoraggiare gli umani a comportarsi in modi che portino a risultati migliori in compiti condivisi. Altri studi hanno esplorato l'uso dell'influenza in giochi o contesti collaborativi. Questi studi hanno proposto approcci sia privi di modello che basati su modello. I metodi privi di modello prevedono come gli altri agenti altereranno le loro strategie senza imparare la dinamica sottostante dell'ambiente. In contesti competitivi, metodi come LOLA valutano gli aggiornamenti dei giocatori e li utilizzano per informare le prossime mosse dell'agente.
Al contrario, il nostro focus è aiutare gli agenti a influenzare gli umani in tempo reale. L'obiettivo dell'apprendimento per rinforzo è imparare una strategia che massimizzi le ricompense cumulative in una data situazione, modellata come un processo decisionale di Markov. Il nostro problema si concentra su compiti che richiedono interazioni con gli umani, la cui strategia e comportamento sono sconosciuti.
Modelliamo il comportamento umano come avente qualche strato strategico nascosto, che guida le loro azioni. Il nostro approccio può essere considerato come una sorta speciale di processo decisionale parzialmente osservabile, focalizzandosi sugli aspetti nascosti dell'Interazione Umana.
Apprendimento per Rinforzo Offline
Utilizziamo l'apprendimento per rinforzo offline per sviluppare strategie per coordinarsi con partner umani senza richiedere interazioni dal vivo o un simulatore. Nell'RL offline, operiamo su un dataset fisso che contiene vari dati di interazione. Gli algoritmi tipici utilizzano un framework attore-critico che impara a massimizzare le ricompense attese dalle esperienze registrate.
Poiché ci affidiamo esclusivamente ai dati passati, i metodi tradizionali potrebbero avere difficoltà con situazioni in cui le azioni dell'AI non sono rappresentate nel dataset. Per combattere ciò, utilizziamo l'apprendimento Q conservativo, che penalizza le azioni che si discostano da quelle viste nel dataset, assicurando che i nostri comportamenti appresi rimangano nei limiti delle interazioni umane osservate.
Influenza nell'Ambiente Overcooked
Per testare le nostre idee, abbiamo scelto una versione semplificata del gioco Overcooked, dove i giocatori devono coordinarsi per cucinare pasti. Questo gioco è ben adatto per studiare le interazioni umane perché i giocatori spesso agiscono subottimalmente a causa di problemi di comunicazione e coordinazione.
In questo ambiente, due giocatori si muovono in una cucina piena di ingredienti e strumenti da cucina. Devono lavorare insieme per preparare i piatti mentre affrontano ostacoli. Il successo dipende dal fatto che ogni giocatore completa i compiti nell'ordine corretto e collabora in modo efficace.
Nel nostro lavoro, identifichiamo due sfide principali nell'imparare a influenzare il comportamento umano in questo ambiente. La prima sfida è riconoscere come dedurre nuove strategie di influenza basate sui dati disponibili. La seconda sfida è garantire che l'AI possa adattare il suo approccio al comportamento umano che cambia nel tempo.
Sfida 1: Deducendo Nuove Strategie di Influenza
Raccogliere dati sul comportamento umano nell'ambiente di Overcooked è relativamente facile, ma identificare strategie di influenza efficaci è difficile. Questo perché gli umani spesso reagiscono passivamente ai loro partner, completando i compiti man mano che arrivano senza cercare attivamente di cambiare il comportamento del partner. Ad esempio, se un'AI sa che il suo partner umano è più adatto per determinati compiti, dovrebbe idealmente influenzare quel partner a prendere quei ruoli.
Tuttavia, poiché gli umani generalmente non mirano a coordinarsi attivamente nei dati raccolti, dobbiamo ideare strategie per imparare come influenzare gli altri basandoci sui dati esistenti. Proponiamo che il RL offline possa derivare nuove strategie di influenza combinando comportamenti esistenti visti nel dataset. Unendo compiti da varie interazioni, l'AI può identificare modi per guidare gli umani verso una migliore coordinazione senza necessità di esempi espliciti di influenza.
Sfida 2: Influenza a Lungo Termine delle Strategie Latenti
Semplicemente far eseguire a un umano azioni specifiche potrebbe non essere sufficiente. Potrebbe essere più utile cambiare il loro approccio o strategia di base. Ad esempio, se un'AI vuole che un umano si concentri su compiti specifici, potrebbe dover bloccare l'accesso a distrazioni per un periodo prolungato, cambiando così la strategia dell'umano nel tempo.
Un'influenza efficace richiede all'AI di riconoscere e rispondere alla strategia in evoluzione dell'umano. Il nostro metodo proposto consente al RL offline di adattarsi ai cambiamenti nel comportamento umano mentre influenza le loro decisioni. Crediamo che, anche con dati che mostrano pochi esempi di coordinazione riuscita, il sistema possa ancora adattarsi utilizzando traiettorie di fallimento per comprendere comportamenti diversi.
Apprendere Strategie di Influenza da Comportamenti Diversi
In questa sezione, dimostriamo che un'AI che utilizza RL offline può imparare a influenzare e migliorare i comportamenti umani ricombinando efficacemente i comportamenti osservati nei dati. Miriamo a sviluppare un metodo in cui l'AI possa utilizzare interazioni passate per sviluppare strategie che non necessariamente devono essere evidenti negli esempi precedenti.
Nei nostri esperimenti, ci concentriamo su quanto bene il RL offline possa generalizzare a nuovi compiti, specificamente nel dominio di Overcooked. Cambiando la struttura delle ricompense nei nostri esperimenti, possiamo motivare l'AI a influenzare il suo partner umano in modo da migliorare le performance nei compiti.
Raccolta Dati
Abbiamo raccolto dati dalle interazioni umane mentre giocavano al gioco in varie condizioni. Un set di istruzioni consentiva ai giocatori di operare secondo un obiettivo standard, mentre un altro si concentrava su ruoli specifici senza la conoscenza del partner, portando a una varietà di azioni subottimali.
Nelle nostre valutazioni, confrontiamo le performance del RL offline con metodi tradizionali come il comportamento cloning e variazioni di apprendimento per rinforzo che non sfruttano la ricchezza della cooperazione umana.
Raggiungere Influenza a Lungo Termine delle Strategie Latenti
Per influenzare efficacemente la strategia generale di un umano, l'AI deve capire cosa è probabile che faccia l'umano. Nei nostri esperimenti, introduciamo un metodo in cui l'AI impara una rappresentazione della strategia nascosta dell'umano e condiziona le proprie decisioni basandosi su questa comprensione.
Attraverso una combinazione di interazioni passate e osservazioni presenti, possiamo addestrare l'AI ad adattare la sua strategia di influenza man mano che il comportamento dell'umano cambia nel tempo. Questo approccio consente all'AI di essere più reattiva ed efficace nelle sue interazioni.
Descrizione del Compito
Nella nostra valutazione, impostiamo diversi layout nel dominio di Overcooked che consentono ai giocatori di influenzarsi direttamente. Consideriamo quanto efficacemente l'AI possa alterare il comportamento del partner offrendo ricompense per risultati desiderati, come servire zuppe fatte solo con ingredienti specifici.
Conclusione
Gli esseri umani spesso agiscono subottimalmente a causa di pregiudizi o mancanza di informazioni. Esploriamo come il RL offline possa imparare a influenzare il comportamento umano utilizzando dati da interazioni umane. I nostri risultati indicano che i metodi di RL offline esistenti possono derivare nuove strategie di influenza da comportamenti umani diversi. Inoltre, riconoscendo e adattandosi ai cambiamenti nelle strategie umane, l'AI può guidare con successo gli esseri umani verso una performance migliore.
Limitazioni e Futuri Sviluppi
La nostra ricerca si concentra principalmente sul gioco Overcooked a causa delle sue regole e dinamiche chiare, che rende più facile studiare l'influenza umana. Tuttavia, questo ambiente è più semplice rispetto a situazioni reali che richiedono collaborazione con gli umani. Studi futuri dovrebbero affrontare se i nostri risultati siano validi in scenari più complessi e reali, come nei sistemi di dialogo.
Inoltre, abbiamo isolato due sfide nell'influenza umana: apprendere strategie non viste e raggiungere un'influenza a lungo termine adattabile. Resta da vedere se il RL offline può affrontare entrambe le sfide in un approccio coeso, apprendendo da interazioni umane diverse per indirizzare efficacemente il loro comportamento futuro.
Implicazioni Etiche
L'idea di influenzare il comportamento umano è complessa. Anche se ci sono vantaggi-come aiutare le persone a migliorare comportamenti subottimali-ci sono anche rischi. Se l'AI opera sotto assunzioni sbagliate o manca della comprensione dei valori umani, influenzarli potrebbe portare a conseguenze negative. Comprendere le implicazioni etiche dell'influenza dell'AI è cruciale per uno sviluppo e un'applicazione responsabili.
Titolo: Learning to Influence Human Behavior with Offline Reinforcement Learning
Estratto: When interacting with people, AI agents do not just influence the state of the world -- they also influence the actions people take in response to the agent, and even their underlying intentions and strategies. Accounting for and leveraging this influence has mostly been studied in settings where it is sufficient to assume that human behavior is near-optimal: competitive games, or general-sum settings like autonomous driving alongside human drivers. Instead, we focus on influence in settings where there is a need to capture human suboptimality. For instance, imagine a collaborative task in which, due either to cognitive biases or lack of information, people do not perform very well -- how could an agent influence them towards more optimal behavior? Assuming near-optimal human behavior will not work here, and so the agent needs to learn from real human data. But experimenting online with humans is potentially unsafe, and creating a high-fidelity simulator of the environment is often impractical. Hence, we focus on learning from an offline dataset of human-human interactions. Our observation is that offline reinforcement learning (RL) can learn to effectively influence suboptimal humans by extending and combining elements of observed human-human behavior. We demonstrate that offline RL can solve two challenges with effective influence. First, we show that by learning from a dataset of suboptimal human-human interaction on a variety of tasks -- none of which contains examples of successful influence -- an agent can learn influence strategies to steer humans towards better performance even on new tasks. Second, we show that by also modeling and conditioning on human behavior, offline RL can learn to affect not just the human's actions but also their underlying strategy, and adapt to changes in their strategy.
Autori: Joey Hong, Sergey Levine, Anca Dragan
Ultimo aggiornamento: 2023-10-27 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.02265
Fonte PDF: https://arxiv.org/pdf/2303.02265
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.