Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Entendendo a Linguagem de Empoderamento Através do Conjunto de Dados TalkUp

A pesquisa explora como a linguagem empodera as pessoas em vários contextos sociais.

― 10 min ler


Empoderamento na AnáliseEmpoderamento na Análisede Linguagemcontextos sociais.afeta o empoderamento em diferentesPesquisas mostram como a linguagem
Índice

A linguagem empoderadora é uma parte vital de várias áreas da vida, desde a educação até o trabalho e a saúde. Enquanto a tecnologia que processa a linguagem tá ficando mais comum, não tem havido muito foco em como a linguagem pode empoderar as pessoas. Isso torna difícil estudar porque o Empoderamento é muitas vezes sutil e não fácil de definir. Este trabalho se baseia em estudos de linguagem e psicologia para identificar o que torna a linguagem empoderadora. Criamos um conjunto de dados único de posts do Reddit que destaca o empoderamento, as razões para isso e as relações entre as pessoas que criam e leem esses posts.

Nossas descobertas preliminares sugerem que o conjunto de dados, chamado TalkUp, pode ajudar a treinar modelos de linguagem para identificar tanto a linguagem empoderadora quanto a desempoderadora. O TalkUp abre portas para um estudo mais aprofundado sobre como o contexto e as relações sociais em torno da linguagem podem afetar seu significado.

Para ilustrar esse conceito, pense em dois tipos de conversas. A primeira é claramente empoderadora, enquanto a segunda é mais confusa e pode ser vista tanto como um conselho útil quanto como uma observação desdenhosa. O contexto- a relação entre a pessoa que escreve o post e a que lê- pode mudar muito o impacto da mensagem.

Empoderamento, ou ajudar alguém a ganhar confiança e fazer suas próprias escolhas, é um objetivo em muitas situações sociais. Professores querem empoderar seus alunos, assistentes sociais apoiam seus clientes e políticos buscam motivar seus seguidores. Pesquisas em psicologia e linguística mostram que o empoderamento pode aumentar a confiança e o valor próprio de uma pessoa.

À medida que a tecnologia de linguagem é aplicada em situações mais interativas, se torna crucial entender como a linguagem pode empoderar ou desempoderar indivíduos. Desde chatbots voltados para apoio em saúde mental até ferramentas educacionais e feedback de gerentes, a linguagem usada pode ter resultados significativamente diferentes.

Pesquisas anteriores focaram principalmente em identificar linguagem prejudicial, mas menos atenção foi dada ao que torna um texto útil. Alguns estudos olharam para ideias como condescendência e negatividade oculta, e nosso trabalho se baseia nesses estudos para criar um conjunto de dados que pode melhorar essas tarefas.

Quando pensamos em empoderamento, é claro que o contexto social desempenha um papel fundamental. Se alguém acha uma conversa empoderadora muitas vezes depende das dinâmicas sociais em jogo, incluindo as identidades e origens das pessoas envolvidas.

Como o empoderamento não é facilmente reconhecido por ferramentas tradicionais de linguagem, precisamos aprender mais sobre como detectá-lo. Nosso estudo faz três perguntas de pesquisa chave:

  1. Como podemos definir e detectar a linguagem empoderadora?
  2. Que tipos de empoderamento estão presentes na linguagem?
  3. Como o contexto social influencia a linguagem?

Nossas contribuições são três:

  1. Introduzimos a tarefa de detectar empoderamento na linguagem, com base em pesquisas existentes.
  2. Criamos o TalkUp, um conjunto de dados de posts do Reddit que estão rotulados para empoderamento e detalham as relações entre os postadores e leitores.
  3. Analisamos esses dados para mostrar como eles podem treinar modelos que identificam linguagem empoderadora ou desempoderadora e responder a questões sobre comportamento.

No final, nosso objetivo é ajudar pesquisadores futuros a desenvolver modelos que possam detectar e gerar linguagem empoderadora e incentivar uma pesquisa mais ampla sobre o contexto e as implicações do uso da linguagem.

Ao definir empoderamento, focamos em seu significado na psicologia clínica, que geralmente envolve um diálogo entre terapeuta e paciente. Esse foco ajuda a esclarecer as maneiras que a linguagem eleva os indivíduos, apoiando seus direitos, escolhas e autoestima. Queremos incorporar essa compreensão em ferramentas como chatbots e aplicações educacionais, embora isso apresente desafios, já que o empoderamento pode parecer diferente em vários Contextos.

Empoderamento é muitas vezes implícito, ou seja, não é sempre declarado claramente, mas pode ser inferido a partir do tom, encorajamento ou validação presentes no texto. O contexto social influencia fortemente se uma mensagem é vista como empoderadora, mostrando a importância de quem está falando e quem está ouvindo.

O Conjunto de Dados TalkUp

Agora vamos discutir como construímos o conjunto de dados TalkUp.

Esquema de Anotação

Para criar nosso conjunto de dados, desenvolvemos uma tarefa de anotação. Essa tarefa foi aprimorada através de estudos piloto onde aprendemos que o contexto desempenha um papel significativo na interpretação de um post, que as respostas dos anotadores sobre papéis sociais eram inconsistentes e que muitos posts eram ambíguos. Como resultado, nossa tarefa final inclui três partes principais:

  1. Avaliação do Empoderamento: Os posts são avaliados em uma escala de empoderador, neutro a desempoderador. Um post é empoderador se apoia os direitos e escolhas do leitor e desempoderador se os nega.

  2. Identificando Razões para o Empoderamento: Estabelecemos uma lista de 15 razões pelas quais um post pode ser considerado empoderador e selecionamos aquelas relevantes para cada post.

  3. Determinando a Posição: Vimos se o postador e o comentarista concordavam ou discordavam sobre o tópico, já que isso pode influenciar a interpretação da linguagem usada.

Fonte de Dados

O TalkUp é composto por posts do Reddit de uma grande coleção de 25 milhões de comentários, anotados com os gêneros dos comentadores e postadores. Ao focar no gênero como uma variável social, pretendemos entender melhor as dinâmicas de empoderamento na linguagem.

Filtramos nossos dados para incluir apenas discussões e posts relevantes que não eram nem muito curtos nem muito longos.

Durante os primeiros experimentos, descobrimos que modelos poderiam ajudar a identificar posts potencialmente empoderadores, permitindo-nos selecionar uma variedade diversificada para anotação.

Para a coleta de dados, reunimos trabalho em equipe através do Amazon Mechanical Turk, garantindo que trabalhadores qualificados anotassem nossos posts. Exigimos que os anotadores atendessem a qualificações específicas para manter a qualidade, e eles foram compensados de forma justa com base no tempo médio de anotação.

Estatísticas dos Dados

Coletamos uma visão geral abrangente de nosso conjunto de dados, observando a distribuição de rótulos de empoderamento em diferentes subreddits e a porcentagem de posts por mulheres.

De 2000 posts anotados, encontramos 962 rotulados como empoderadores, 129 como desempoderadores e 267 como ambíguos. Uma grande porcentagem de posts empoderadores não tinha uma razão clara, destacando a complexidade de identificar o empoderamento em texto.

O acordo entre anotadores mostrou uma consistência aceitável, dada a natureza sutil dessa tarefa. Scores semelhantes de concordância na ciência social computacional sugerem que, embora essa tarefa seja complexa, ela se alinha com a pesquisa atual sobre interpretação de linguagem.

Análise de Dados

Apresentamos análises preliminares de nossas descobertas relacionadas à linguagem empoderadora.

Características da Linguagem Empoderadora

Ao examinar características específicas da linguagem, descobrimos que empoderamento não se trata apenas de palavras positivas, mas também de tom. A linguagem empoderadora é frequentemente direta e pessoal, usando pronomes singulares como "eu" e "você", que diferem da linguagem mais generalizada de desempoderamento que utiliza pronomes plurais como "nós" e "eles".

Gênero e Linguagem Empoderadora

Ao comparar a linguagem empoderadora entre os gêneros, descobrimos que as mulheres tendem a usar um tom mais positivo e uma linguagem mais emocional do que os homens. Por exemplo, mulheres usaram mais pontos de exclamação, enquanto homens usaram uma linguagem mais forte.

Curiosamente, enquanto as mulheres produziram mais conteúdo empoderador no geral, elas também tiveram uma porcentagem ligeiramente maior de posts desempoderadores em comparação com os homens. Isso indica que o envolvimento das mulheres com a linguagem empoderadora pode variar muito dependendo do contexto.

Razões para o Empoderamento

Observamos uma variedade de razões pelas quais os posts foram considerados empoderadores, sendo as mais comuns o encorajamento para expressar emoções e o apoio à autoimagem do leitor. Diferentes subreddits também mostraram padrões únicos em como empoderaram seus usuários, sugerindo que o contexto desempenha um papel fundamental na linguagem usada.

Alinhamento entre Postadores e Comentadores

Um aspecto importante de nossa análise foi como o alinhamento entre postadores e comentadores influenciou o empoderamento dos posts. A maioria dos posts empoderadores ocorreu com acordo entre os participantes, enquanto os posts desempoderadores frequentemente refletiram discordância.

Modelando Linguagem Empoderadora

Na análise de quão bem nossos modelos poderiam capturar linguagem empoderadora, avaliamos dois tipos: um modelo RoBERTa ajustado e um modelo GPT-3 de zero-shot. O modelo ajustado teve um desempenho melhor do que a abordagem de zero-shot, destacando a importância de um conjunto de dados bem estruturado como o TalkUp.

Ambiguidade na Linguagem Empoderadora

Nosso conjunto de dados continha numerosos exemplos rotulados como ambíguos, mostrando linguagem que poderia ser interpretada de várias maneiras. Essa ambiguidade oferece insights ricos sobre as complexidades da comunicação e como o contexto pode afetar grandemente a interpretação.

Direções Futuras

Embora tenhamos focado principalmente na detecção e classificação, nosso trabalho também abre possibilidades para gerar uma linguagem mais empoderadora. Estudos futuros podem explorar o potencial de usar nosso conjunto de dados para criar sistemas que gerem texto com empoderamento em mente.

Ao estudar apenas interações de duas trocas e três variáveis sociais, encorajamos uma exploração mais profunda nas muitas dimensões do empoderamento. Entender a linguagem em diálogos de múltiplas trocas e considerar fatores como raça, idade e outras identidades pode proporcionar insights mais profundos sobre como a linguagem impacta dinâmicas sociais.

Conclusão

Este trabalho destaca a necessidade de uma melhor compreensão da linguagem empoderadora em PLN, enfatizando o contexto social e os efeitos psicológicos que ela pode ter. Ao introduzir o conjunto de dados TalkUp e realizar análises preliminares, damos passos significativos para entender como a linguagem pode elevar ou minar indivíduos em diferentes contextos. A exploração contínua nesta área é crítica para aumentar o impacto da tecnologia de linguagem em nossas vidas cotidianas, especialmente na educação, terapia e além.

Ética e Limitações

Em nossa pesquisa, priorizamos padrões éticos para coleta de dados e anotação, garantindo compensação justa e verificações cuidadosas sobre conteúdo sensível. No entanto, reconhecemos limitações em nosso trabalho, incluindo os potenciais preconceitos nas demografias dos anotadores e a representação limitada de identidades não-binárias. Pesquisas futuras devem buscar maior inclusão e explorar o empoderamento em domínios mais diversos além do Reddit.

Através deste estudo, buscamos avançar a incorporação de linguagem empoderadora em aplicações do mundo real, abrindo caminho para interações mais positivas em vários contextos sociais.

Fonte original

Título: TalkUp: Paving the Way for Understanding Empowering Language

Resumo: Empowering language is important in many real-world contexts, from education to workplace dynamics to healthcare. Though language technologies are growing more prevalent in these contexts, empowerment has seldom been studied in NLP, and moreover, it is inherently challenging to operationalize because of its implicit nature. This work builds from linguistic and social psychology literature to explore what characterizes empowering language. We then crowdsource a novel dataset of Reddit posts labeled for empowerment, reasons why these posts are empowering to readers, and the social relationships between posters and readers. Our preliminary analyses show that this dataset, which we call TalkUp, can be used to train language models that capture empowering and disempowering language. More broadly, TalkUp provides an avenue to explore implication, presuppositions, and how social context influences the meaning of language.

Autores: Lucille Njoo, Chan Young Park, Octavia Stappart, Marvin Thielk, Yi Chu, Yulia Tsvetkov

Última atualização: 2023-10-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.14326

Fonte PDF: https://arxiv.org/pdf/2305.14326

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes