Controllo dell'utente nella moderazione dei modelli linguistici
Un nuovo approccio dà agli utenti voce nella gestione del linguaggio tossico.
― 7 leggere min
Indice
I chatbot e i modelli di linguaggio, come quelli che vediamo oggi, sono ottimi per aiutarci a trovare informazioni, assistere nel servizio clienti e persino creare contenuti. Tuttavia, a volte possono produrre risposte che possono essere considerate offensive o dannose. Per affrontare questo problema, gli sviluppatori usano qualcosa chiamato "valutazione della tossicità". Questa valutazione cerca di identificare il linguaggio che potrebbe turbarsi o offendere le persone. Anche se sembra utile, può anche fermare conversazioni importanti e rendere difficile per i gruppi emarginati riprendere e ridefinire il proprio linguaggio.
In questo lavoro, diamo un'occhiata a un nuovo metodo per dare agli utenti più controllo su come questi modelli di linguaggio gestiscono il linguaggio tossico. Invece di avere un insieme rigido di regole che tutti devono seguire, suggeriamo di lasciare che gli utenti impostino i propri standard. In questo modo, le persone possono interagire con il linguaggio in un modo che si sente giusto per loro.
La sfida della moderazione
Le piattaforme online, come i social media, spesso devono gestire cosa possono pubblicare gli utenti. Lo fanno per evitare di causare danno, come disagio o problemi legali. Ci sono due modi principali in cui moderano i contenuti: usando moderatori umani o sistemi automatizzati. Mentre i moderatori umani possono capire il contesto e le sfumature, possono anche stancarsi e fare errori. D'altra parte, i sistemi automatizzati possono agire rapidamente e gestire grandi quantità di contenuti, ma possono anche mancare il bersaglio, specialmente con il linguaggio dei gruppi emarginati.
La valutazione della tossicità è un modo in cui le piattaforme automatizzano la moderazione. Assegna un punteggio a parole e frasi in base a quanto è probabile che turbi qualcuno. Ad esempio, l'API Perspective è uno strumento ben noto che valuta il testo per contenuti potenzialmente dannosi. Se un messaggio ottiene un punteggio troppo alto, potrebbe essere rimosso o segnalato.
Tuttavia, questi sistemi di punteggio possono essere parziali nei confronti di determinate lingue o identità, portando a trattamenti ingiusti. Ad esempio, quando il linguaggio delle comunità emarginate viene valutato, può spesso essere etichettato erroneamente come dannoso. Questo può portare a rimozioni eccessive di contenuti o restrizioni di account per quegli utenti.
Modelli di Linguaggio Generativi
Il ruolo deiI modelli di linguaggio generativi (GLM) stanno diventando sempre più popolari. Possono produrre testo basato su input e sono stati integrati in numerosi prodotti e servizi. Tuttavia, come molte altre tecnologie, possono anche generare contenuti offensivi o fraintesi. Per questo motivo, molti sviluppatori consigliano di utilizzare la valutazione della tossicità per filtrare le uscite di questi modelli.
Sfortunatamente, i problemi osservati con i sistemi di punteggio in generale si applicano anche qui. Quando i GLM vengono filtrati troppo a causa della valutazione della tossicità, gli utenti possono perdere informazioni rilevanti e utili. Questo problema diventa particolarmente reale nelle conversazioni che toccano temi di identità, dove comprendere e riprendere il linguaggio è importante.
La ripresa del linguaggio è come le comunità riprendono parole che sono state usate contro di loro e le ridefiniscono in modo positivo. Questo processo è essenziale per l'empowerment, ma la valutazione della tossicità può ostacolare questa ripresa.
Rimedi Algoritmici
Introduzione aiPer affrontare alcune di queste sfide, proponiamo un concetto chiamato rimedio algoritmico. Questa idea consente agli utenti di avere voce in capitolo nel processo di moderazione. Dando agli utenti la possibilità di impostare le proprie soglie di tossicità, li responsabilizziamo. Invece che siano le piattaforme a decidere cosa è accettabile, gli utenti possono controllare la loro esperienza linguistica.
Il nostro sistema funziona permettendo agli utenti di specificare la propria tolleranza per il linguaggio potenzialmente tossico. Questo significa che possono scegliere di visualizzare contenuti anche se ottengono un punteggio alto di tossicità. Se un utente ritiene che il linguaggio sia accettabile, può regolare le impostazioni per le interazioni future. Questa funzione dinamica mira a bilanciare la sicurezza e il controllo degli utenti, permettendo loro di prendere in mano le proprie conversazioni.
Studio Pilota
Abbiamo condotto uno studio pilota per vedere se questo metodo potesse funzionare. I partecipanti hanno interagito con un GLM su argomenti legati all'identità e abbiamo testato sia un approccio tradizionale di valutazione sia il nostro nuovo sistema di soglie dinamiche. L'obiettivo era vedere se il nostro sistema di rimedi migliorasse le esperienze degli utenti e rendesse le interazioni più fluide.
Design dello studio
Nella prima parte dello studio, i partecipanti utilizzavano un sistema di valutazione della tossicità convenzionale in cui veniva applicata una singola soglia. Nella seconda parte, utilizzando il nostro nuovo approccio, i partecipanti potevano regolare dinamicamente le soglie per le loro conversazioni. Questo dava loro più controllo su quali contenuti potessero affrontare.
Abbiamo raccolto dati sia quantitativi che qualitativi per vedere quanto fosse efficace il nostro metodo proposto. I partecipanti hanno fornito spunti sull'usabilità e sulle esperienze complessive dopo le loro conversazioni.
Domande di ricerca
Durante lo studio, abbiamo cercato di rispondere a due domande chiave:
- Può il rimedio algoritmico aiutare a migliorare l'esperienza degli utenti con i GLM?
- Quali temi e problemi emergono dalle esperienze dei partecipanti quando si confrontano con l'opzione di rimedio?
Risultati
I risultati del nostro studio pilota hanno fornito spunti incoraggianti. I partecipanti hanno scelto di interagire di più con l'opzione di rimedio quando ne avevano l'opportunità. Molti hanno trovato che personalizzare le soglie migliorava notevolmente le loro interazioni con il chatbot.
Esperienza Utente
I partecipanti hanno scoperto che poter regolare le impostazioni di tossicità rendeva il chatbot più facile da usare. I feedback dello studio hanno indicato che consentire agli utenti di definire la propria tolleranza ha portato a un senso di maggiore controllo durante le conversazioni. Gli utenti hanno riferito di sentirsi più empowered nelle loro interazioni.
Nonostante alcuni feedback positivi, molti partecipanti hanno faticato a usare il sistema in modo efficace. Hanno espresso confusione su come regolare le risposte del GLM. Sebbene il sistema di rimedio desse loro la possibilità di modificare ciò che visualizzavano, molti si sentivano sopraffatti o insicuri riguardo all'utilizzo corretto.
Temi di feedback
Tre temi principali sono emersi dai feedback dei partecipanti:
- Comprensione del sistema: Molti partecipanti non hanno afferrato completamente come funzionasse il filtro di tossicità. Questa mancanza di chiarezza significava che a volte cercavano soluzioni alternative, portando a frustrazione.
- Limitazioni delle risposte: I partecipanti spesso sentivano che il GLM faticava a seguire le loro richieste, portando a insoddisfazione nel flusso della conversazione.
- Parzialità nel punteggio: Gli utenti hanno evidenziato incoerenze nel funzionamento dell'algoritmo di valutazione della tossicità. Questa preoccupazione ha messo in evidenza la necessità di un ulteriore affinamento dei sistemi di punteggio.
L'importanza di una comunicazione chiara
Un'importante lezione da questo studio è la necessità di chiarezza ed educazione su come funzionano la valutazione e il filtraggio della tossicità. Fornire agli utenti informazioni chiare può aiutarli a comprendere come interagire meglio con i GLM e portare a interazioni più significative.
Conclusione
La nostra esplorazione del rimedio algoritmico mostra promesse per migliorare le esperienze degli utenti con i modelli di linguaggio. Permettendo agli utenti di impostare le proprie soglie di tossicità, possiamo promuovere un ambiente più inclusivo in cui i gruppi emarginati possano riprendere il proprio linguaggio.
Tuttavia, ci sono ancora molte sfide da affrontare. La ricerca futura dovrebbe concentrarsi sull'affinamento dei meccanismi di rimedio e garantire che siano facili da usare. È essenziale raccogliere più dati da comunità diverse per comprendere meglio le loro esigenze.
Il rimedio algoritmico può svolgere un ruolo nell'allineare l'IA con i valori umani, fornendo agli utenti strumenti pratici per gestire le loro interazioni. Dando agli utenti più controllo sulle proprie esperienze, prepariamo il terreno per una relazione più collaborativa e rispettosa con i modelli di linguaggio generativi.
Titolo: Recourse for reclamation: Chatting with generative language models
Estratto: Researchers and developers increasingly rely on toxicity scoring to moderate generative language model outputs, in settings such as customer service, information retrieval, and content generation. However, toxicity scoring may render pertinent information inaccessible, rigidify or "value-lock" cultural norms, and prevent language reclamation processes, particularly for marginalized people. In this work, we extend the concept of algorithmic recourse to generative language models: we provide users a novel mechanism to achieve their desired prediction by dynamically setting thresholds for toxicity filtering. Users thereby exercise increased agency relative to interactions with the baseline system. A pilot study ($n = 30$) supports the potential of our proposed recourse mechanism, indicating improvements in usability compared to fixed-threshold toxicity-filtering of model outputs. Future work should explore the intersection of toxicity scoring, model controllability, user agency, and language reclamation processes -- particularly with regard to the bias that many communities encounter when interacting with generative language models.
Autori: Jennifer Chien, Kevin R. McKee, Jackie Kay, William Isaac
Ultimo aggiornamento: 2024-04-21 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2403.14467
Fonte PDF: https://arxiv.org/pdf/2403.14467
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.