Capire il Linguaggio Empowering Attraverso il Dataset TalkUp
La ricerca esplora come il linguaggio dia potere alle persone in diversi contesti sociali.
― 9 leggere min
Il linguaggio che dà potere è una parte fondamentale di molti aspetti della vita, dall'istruzione al lavoro e alla salute. Mentre la tecnologia che elabora il linguaggio diventa sempre più comune, non si è prestata molta attenzione a come il linguaggio possa dare potere alle persone. Questo rende difficile lo studio poiché il potere è spesso sottile e non facile da definire. Questo lavoro si basa su studi di linguaggio e psicologia per identificare cosa rende il linguaggio potenziante. Abbiamo creato un dataset unico da post di Reddit che evidenzia il potere, le ragioni per cui si verifica e le relazioni tra le persone che scrivono e leggono questi post.
I nostri risultati preliminari suggeriscono che il dataset, chiamato TalkUp, può aiutare ad addestrare modelli linguistici a identificare sia il linguaggio potenziante che quello disempowerante. TalkUp apre porte per ulteriori studi su come il Contesto e le relazioni sociali attorno al linguaggio possano influenzarne il significato.
Per illustrare questo concetto, considera due tipi di conversazioni. La prima è chiaramente potenziante, mentre la seconda è più confusa e potrebbe essere vista come un consiglio utile o un commento sprezzante. Il contesto-la relazione tra la persona che scrive il post e quella che lo legge-può cambiare notevolmente l'impatto del messaggio.
Dare potere, o aiutare qualcuno a guadagnare fiducia e fare le proprie scelte, è un obiettivo in molte situazioni sociali. Gli insegnanti vogliono dare potere ai loro studenti, i lavoratori sociali supportano i loro clienti e i politici cercano di motivare i loro seguaci. La ricerca in psicologia e linguistica mostra che il potere può aumentare la fiducia e l'autostima di una persona.
Man mano che la tecnologia linguistica viene applicata a situazioni più interattive, diventa cruciale capire come il linguaggio possa dare potere o disempowerare gli individui. Dai chatbot per il supporto alla salute mentale agli strumenti educativi e ai feedback dei manager, il linguaggio usato può avere risultati significativamente diversi.
La ricerca precedente si è concentrata soprattutto sull'identificazione di linguaggio dannoso, ma è stata prestata meno attenzione a cosa rende un testo utile. Alcuni studi hanno esaminato idee come la condiscendenza e la negatività nascosta, e il nostro lavoro si basa su questi studi per creare un dataset che possa migliorare tali compiti.
Quando consideriamo il potere, è chiaro che il contesto sociale gioca un ruolo chiave. Se qualcuno trova una conversazione potenziante spesso dipende dalle dinamiche sociali in gioco, comprese le identità e i background delle persone coinvolte.
Poiché il potere non è facilmente riconosciuto dagli strumenti linguistici tradizionali, dobbiamo saperne di più su come rilevarlo. Il nostro studio si pone tre domande di ricerca chiave:
- Come possiamo definire e rilevare il linguaggio potenziante?
- Quali tipi di potere sono presenti nel linguaggio?
- Come influisce il contesto sociale sul linguaggio?
Le nostre contribuzioni sono tre:
- Introduciamo il compito di rilevamento del potere nel linguaggio, basato sulla ricerca esistente.
- Creiamo TalkUp, un dataset di post di Reddit etichettati per potere e dettagliamo le relazioni tra chi scrive e chi legge.
- Analizziamo questi dati per mostrare come possano addestrare modelli che identificano linguaggio potenziante o disempowerante e rispondere a domande sul comportamento.
In definitiva, il nostro obiettivo è aiutare i futuri ricercatori a sviluppare modelli che possano rilevare e generare linguaggio potenziante e incoraggiare una ricerca più ampia sul contesto e le implicazioni dell'uso del linguaggio.
Nel definire il potere, ci concentriamo sul suo significato nella psicologia clinica, che di solito comporta un dialogo tra terapeuta e paziente. Questo focus ci aiuta a chiarire i modi in cui il linguaggio eleva gli individui supportando i loro diritti, scelte e autostima. Vogliamo incorporare questa comprensione in strumenti come chatbot e applicazioni educative, anche se presenta sfide poiché il potere può apparire diverso in vari contesti.
Il potere è spesso implicito, il che significa che non sempre viene chiaramente dichiarato ma può essere dedotto dal tono, dall'incoraggiamento o dalla convalida presenti nel testo. Il contesto sociale influenza fortemente se un messaggio è visto come potenziante, mostrando l'importanza di chi parla e chi ascolta.
Il Dataset TalkUp
Ora discutiamo di come abbiamo costruito il dataset TalkUp.
Schema di Annotazione
Per creare il nostro dataset, abbiamo sviluppato un compito di annotazione. Questo compito è stato affinato attraverso studi pilota dove abbiamo appreso che il contesto gioca un ruolo significativo nell'interpretazione di un post, che le risposte degli annotatori sui ruoli sociali erano incoerenti e che molti post erano ambigui. Di conseguenza, il nostro compito finale include tre parti principali:
Valutazione del Potere: I post vengono valutati su una scala da potenziante, neutrale a disempowerante. Un post è potenziante se supporta i diritti e le scelte del lettore e disempowerante se le nega.
Identificazione delle Ragioni per il Potere: Abbiamo stabilito un elenco di 15 ragioni per cui un post potrebbe essere considerato potenziante e selezionato quelle pertinenti a ciascun post.
Determinazione dell'Orientamento: Abbiamo esaminato se l'autore e il commentatore concordassero o meno sull'argomento, poiché questo potrebbe influenzare l'interpretazione del linguaggio usato.
Fonte dei Dati
TalkUp è composto da post di Reddit da una grande raccolta di 25 milioni di commenti, annotati con i generi degli autori e dei commentatori. Concentrandoci sul genere come variabile sociale, abbiamo cercato di comprendere meglio le dinamiche del potere nel linguaggio.
Abbiamo filtrato i nostri dati per includere solo discussioni e post rilevanti che non fossero né troppo brevi né troppo lunghi.
Durante le prime sperimentazioni, abbiamo scoperto che i modelli potevano aiutare a identificare post potenzialmente potenzianti, permettendoci di selezionare un ampio ventaglio per l'annotazione.
Per la raccolta dei dati, abbiamo utilizzato il lavoro di squadra attraverso Amazon Mechanical Turk, assicurandoci che lavoratori qualificati annotassero i nostri post. Abbiamo richiesto agli annotatori di soddisfare specifiche qualifiche per mantenere la qualità e sono stati compensati equamente in base al tempo medio di annotazione.
Statistiche sui Dati
Abbiamo raccolto una panoramica completa del nostro dataset, annotando la distribuzione delle etichette di potere tra i diversi subreddit e la percentuale di post da parte di donne.
Su 2000 post annotati, abbiamo trovato 962 etichettati come potenzianti, 129 come disempoweranti e 267 come ambigui. Una grande percentuale di post potenzianti mancava di una chiara ragione, evidenziando la complessità di identificare il potere nel testo.
L'accordo tra annotatori ha mostrato una coerenza accettabile, data la natura sfumata di questo compito. Punteggi di accordo simili nella scienza sociale computazionale suggeriscono che, sebbene questo compito sia complesso, si allinea con la ricerca attuale sull'interpretazione del linguaggio.
Analisi dei Dati
Presentiamo analisi preliminari dei nostri risultati relativi al linguaggio potenziante.
Caratteristiche del Linguaggio Potenziante
Esaminando specifiche caratteristiche linguistiche, abbiamo scoperto che il potere non riguarda solo parole positive ma anche il tono. Il linguaggio potenziante è spesso diretto e personale, usando pronomi singolari come "io" e "tu," che si differenziano dal linguaggio più generalizzato del disempowerment che utilizza pronomi plurali come "noi" e "loro."
Genere e Linguaggio Potenziante
Confrontando il linguaggio potenziante tra generi, abbiamo scoperto che le donne tendevano a usare un tono più positivo e un linguaggio emotivo rispetto agli uomini. Ad esempio, le donne usavano più punti esclamativi, mentre gli uomini utilizzavano un linguaggio più forte.
Interessante, mentre le donne producevano più contenuti potenzianti in generale, avevano anche una percentuale leggermente superiore di post disempoweranti rispetto agli uomini. Questo indica che il coinvolgimento delle donne con il linguaggio potenziante può variare notevolmente a seconda del contesto.
Ragioni per il Potere
Abbiamo osservato una varietà di motivi per cui i post sono stati considerati potenzianti, con il più comune che era l'incoraggiamento a esprimere emozioni e il supporto per l'autopercezione del lettore. Diversi subreddit mostrano anche schemi unici nel modo in cui potenziano i loro utenti, suggerendo che il contesto gioca un ruolo chiave nel linguaggio usato.
Allineamento tra Postatori e Commentatori
Un aspetto importante della nostra analisi è stato come l'allineamento tra postatori e commentatori influenzasse il potere dei post. La maggior parte dei post potenzianti si è verificata con accordo tra i partecipanti, mentre i post disempoweranti riflettevano spesso disaccordo.
Modelli di Linguaggio Potenziante
Analizzando quanto bene i nostri modelli potessero catturare il linguaggio potenziante, abbiamo valutato due tipi: un modello RoBERTa fine-tuned e un modello GPT-3 zero-shot. Il modello fine-tuned ha performato meglio dell'approccio zero-shot, evidenziando l'importanza di un dataset ben strutturato come TalkUp.
Ambiguità nel Linguaggio Potenziante
Il nostro dataset conteneva numerosi campioni etichettati come ambigui, mostrando un linguaggio che poteva essere interpretato in più modi. Questa ambiguità offre spunti ricchi sulle complessità della comunicazione e su come il contesto possa influenzare notevolmente l'interpretazione.
Direzioni Future
Sebbene ci siamo concentrati principalmente su rilevamento e classificazione, il nostro lavoro apre anche possibilità per generare linguaggio più potenziante. Studi futuri possono esplorare il potenziale di utilizzare il nostro dataset per creare sistemi che generano testi pensando al potere.
Studiare solo interazioni di due turni e tre variabili sociali ci incoraggia a esplorare ulteriormente le molte dimensioni del potere. Comprendere il linguaggio in dialoghi multi-turno e considerare fattori come razza, età e altre identità può fornire intuizioni più profonde su come il linguaggio influisca sulle dinamiche sociali.
Conclusione
Questo lavoro evidenzia la necessità di una migliore comprensione del linguaggio potenziante nel NLP, enfatizzando il contesto sociale e gli effetti psicologici che può avere. Introducendo il dataset TalkUp e conducendo analisi preliminari, facciamo passi significativi verso la comprensione di come il linguaggio possa elevare o minare gli individui in vari contesti. Continuare a esplorare quest'area è fondamentale per migliorare l'impatto della tecnologia linguistica nelle nostre vite quotidiane, in particolare nell'istruzione, nella terapia e oltre.
Etica e Limitazioni
Nella nostra ricerca, abbiamo dato priorità agli standard etici per la raccolta e l'annotazione dei dati, garantendo compensi equi e controlli accurati sui contenuti sensibili. Tuttavia, riconosciamo le limitazioni del nostro lavoro, inclusi i potenziali pregiudizi nella demografia degli annotatori e la limitata rappresentazione delle identità non binarie. La ricerca futura dovrebbe mirare a una maggiore inclusività ed esplorare il potere in domini più diversi oltre Reddit.
Attraverso questo studio, miriamo a promuovere l'integrazione del linguaggio potenziante nelle applicazioni del mondo reale, aprendo la strada a interazioni più positive in vari contesti sociali.
Titolo: TalkUp: Paving the Way for Understanding Empowering Language
Estratto: Empowering language is important in many real-world contexts, from education to workplace dynamics to healthcare. Though language technologies are growing more prevalent in these contexts, empowerment has seldom been studied in NLP, and moreover, it is inherently challenging to operationalize because of its implicit nature. This work builds from linguistic and social psychology literature to explore what characterizes empowering language. We then crowdsource a novel dataset of Reddit posts labeled for empowerment, reasons why these posts are empowering to readers, and the social relationships between posters and readers. Our preliminary analyses show that this dataset, which we call TalkUp, can be used to train language models that capture empowering and disempowering language. More broadly, TalkUp provides an avenue to explore implication, presuppositions, and how social context influences the meaning of language.
Autori: Lucille Njoo, Chan Young Park, Octavia Stappart, Marvin Thielk, Yi Chu, Yulia Tsvetkov
Ultimo aggiornamento: 2023-10-23 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2305.14326
Fonte PDF: https://arxiv.org/pdf/2305.14326
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.