Simple Science

Ciência de ponta explicada de forma simples

# Informática# Interação Homem-Computador# Inteligência Artificial# Aprendizagem de máquinas

O Impacto da Apresentação nas Percepções de Discurso de Ódio

Analisando como diferentes layouts afetam as opiniões sobre discurso de ódio.

― 5 min ler


Layouts e PercepçõesLayouts e Percepçõessobre Discurso de Ódioavaliações sobre discurso de ódio.Estudo revela que layouts não mudam
Índice

Este artigo analisa se diferentes maneiras de apresentar informações sobre modelos de Aprendizado de Máquina podem mudar como as pessoas se sentem em relação a frases que podem conter discurso de ódio, focando especificamente em "Misoginia" e "Racismo". Em discussões recentes, houve opiniões variadas sobre se a forma como mostramos informações sobre aprendizado de máquina pode influenciar as avaliações das pessoas.

O Estudo e Seu Propósito

Nós fizemos um estudo onde os Participantes analisaram frases que poderiam ser consideradas ofensivas. Eles viram essas frases em três layouts diferentes que explicavam como o aprendizado de máquina identificava discurso de ódio. O objetivo era descobrir se esses layouts mudavam como os participantes classificavam as frases.

Para explorar essa questão, usamos uma abordagem de pesquisa onde os participantes avaliavam se concordavam ou discordavam de uma declaração rotulando uma frase como "Racismo" ou "Misoginia". Usamos um método de análise específico para dividir os resultados e ver se os layouts faziam alguma diferença.

Normas em Comunidades Online

Grupos online estabelecem regras para regular como os membros interagem. Essas regras evoluem à medida que as opiniões das pessoas mudam, o que torna difícil ter uma definição clara do que é considerado uma violação. Em trabalhos anteriores, sugerimos uma estrutura de aprendizado de máquina que ajuda esses grupos a aprender o que conta como comportamento ruim com base no feedback dos membros. Essa estrutura usa modelos avançados para entender e categorizar ações em ambientes como a Wikipedia.

Importância da Interpretação

Em nossas discussões anteriores, notamos que, além de apenas identificar violações das normas sobre discurso de ódio, é vital para esses sistemas explicarem as diversas opiniões nos grupos online. Isso ajuda as pessoas a entender quais palavras em uma frase levam a uma classificação pelo modelo. Para deixar isso mais claro, usamos um algoritmo específico que ajuda a visualizar quais palavras contribuem para identificar uma frase como odiosa.

Nós criamos três layouts para apresentar essas informações: um layout focado nas palavras específicas de uma frase que influenciam sua classificação, outro que fornecia um resumo da relevância geral das palavras em um conjunto de dados, e o terceiro que combinava ambas as abordagens. Cada layout tinha o objetivo de dar aos usuários uma perspectiva diferente sobre como o modelo chegou à sua conclusão.

Design do Estudo

Nosso estudo com usuários reuniu participantes de várias origens para avaliar esses layouts. Cada participante passou por um questionário onde classificou frases duas vezes: primeiro sem nenhuma informação interpretativa e depois novamente com ela. Isso nos permitiu ver se fornecer dados interpretativos mudava suas opiniões.

O estudo foi estruturado cuidadosamente para garantir que coletássemos resultados significativos. Dividimos os participantes em três grupos, com cada grupo avaliando layouts diferentes. Cada participante classificou 20 frases, representando uniformemente as duas classes de discurso de ódio. Usamos um método estatístico sólido para analisar suas classificações com base em vários fatores, incluindo como eles se identificavam em termos de gênero e etnia.

Principais Descobertas

Depois de analisar as respostas, descobrimos que nenhum dos layouts de interpretabilidade mudou significativamente como os participantes viam a misoginia e o racismo. Em outras palavras, a forma como apresentamos as informações não influenciou suas avaliações. No entanto, diferenças individuais, como as frases específicas e as perspectivas pessoais, afetaram as classificações.

Familiaridade dos Participantes e Noções Preconcebidas

Os participantes mostraram que tinham uma ideia clara do que constitui discurso de ódio, muitas vezes alinhando suas classificações com os resultados esperados do modelo. Muitos comentários indicaram que os dados interpretativos confirmaram suas crenças pré-existentes em relação ao discurso de ódio, em vez de mudá-las.

A familiaridade com o assunto levou a respostas mais diretas. Os participantes geralmente achavam os termos nas frases claros o suficiente para fazer um julgamento rápido sem precisar de explicações detalhadas dos layouts.

Nenhum Impacto Significativo dos Layouts

Quando comparamos os resultados entre os diferentes layouts de interpretabilidade, descobrimos que nenhum teve um impacto mais significativo do que os outros. Gênero e etnia também não afetaram as classificações. Isso indica que os participantes confiaram principalmente em sua compreensão e percepções sobre discurso de ódio, em vez de como a informação foi apresentada a eles.

Insights Qualitativos

Os participantes forneceram comentários valiosos que deram uma visão sobre suas experiências. Muitos expressaram preocupações sobre a eficácia dos layouts de interpretabilidade. Alguns comentaram que a relevância destacada pelos modelos não parecia focada ou precisa. Isso sugere que, embora os modelos busquem fornecer clareza, eles podem às vezes ter dificuldades para ressoar com a compreensão humana.

Implicações para Pesquisas Futuras

A falta de influência dos layouts de interpretabilidade neste estudo sugere a necessidade de pesquisas futuras para explorar outros tipos de violações. Pode haver diferentes contextos onde o uso de layouts de interpretabilidade pode levar a resultados variados. Por exemplo, em outros domínios, como reuniões online, os participantes podem ter menos conhecimento prévio sobre as regras, permitindo que a informação interpretativa seja mais impactante.

Em conclusão, enquanto a interpretabilidade continua sendo uma ferramenta importante no aprendizado de máquina, sua eficácia em mudar percepções sobre discurso de ódio permanece limitada. Estudos futuros devem continuar a refinar essas abordagens e explorar aplicações mais amplas para determinar onde elas podem ser mais benéficas.

Fonte original

Título: Can Interpretability Layouts Influence Human Perception of Offensive Sentences?

Resumo: This paper conducts a user study to assess whether three machine learning (ML) interpretability layouts can influence participants' views when evaluating sentences containing hate speech, focusing on the "Misogyny" and "Racism" classes. Given the existence of divergent conclusions in the literature, we provide empirical evidence on using ML interpretability in online communities through statistical and qualitative analyses of questionnaire responses. The Generalized Additive Model estimates participants' ratings, incorporating within-subject and between-subject designs. While our statistical analysis indicates that none of the interpretability layouts significantly influences participants' views, our qualitative analysis demonstrates the advantages of ML interpretability: 1) triggering participants to provide corrective feedback in case of discrepancies between their views and the model, and 2) providing insights to evaluate a model's behavior beyond traditional performance metrics.

Autores: Thiago Freitas dos Santos, Nardine Osman, Marco Schorlemmer

Última atualização: 2024-03-01 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2403.05581

Fonte PDF: https://arxiv.org/pdf/2403.05581

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes