Repensando o Voto da Maioria na Detecção de Discurso de Ódio
Um novo modelo aborda as perspectivas individuais na rotulagem do discurso de ódio.
― 9 min ler
Índice
- O Problema do Voto da Maioria
- O Que Fizemos
- Por Que A Opinião Individual Importa?
- Anotação e Seus Desafios
- Nossa Abordagem
- Coletando Informações Úteis
- Avaliando o Modelo
- Previsão de Grupos Alvo
- Performance Completa do Modelo
- Respeitando a Privacidade
- Implicações para Detecção de Discurso de Ódio
- Enfrentando Desafios Futuros
- Conclusão
- Fonte original
- Ligações de referência
No campo do aprendizado de máquina, a gente costuma usar um método chamado voto da maioria pra rotular dados. Isso quer dizer que, quando várias pessoas avaliam uma informação, o rótulo que a maioria concorda é considerado o correto. Mas esse jeito pode esconder diferenças importantes de opinião, principalmente em tarefas que envolvem temas sensíveis como Detecção de Discurso de Ódio. Aqui, a discordância entre os anotadores pode revelar questões mais profundas relacionadas a diferentes contextos e experiências, e não só erros aleatórios.
O Problema do Voto da Maioria
O voto da maioria às vezes pode fazer a gente ignorar as opiniões de grupos específicos que podem ser afetados pelo conteúdo que tá sendo avaliado. Por exemplo, na detecção de discurso de ódio, se uma afirmação é direcionada a um determinado grupo demográfico, é essencial saber como esse grupo se sente sobre a afirmação. Se a maioria dos anotadores não faz parte desse grupo, a avaliação deles pode não refletir com precisão os sentimentos de quem é alvo.
Quando pessoas de diferentes contextos olham pro mesmo texto, elas podem ter reações diferentes baseadas nas suas experiências pessoais e cultura. Isso significa que, se a gente apenas média as respostas, pode acabar perdendo perspectivas críticas. A suposição de que a discordância entre anotadores é só ruído pode não ser verdadeira pra tarefas subjetivas como entender discurso de ódio.
O Que Fizemos
Criamos um modelo pra entender melhor as avaliações individuais dos anotadores e identificar quais grupos podem ser afetados por certos textos. Nosso objetivo era ver se conseguíamos prever como diferentes anotadores avaliariam afirmações potencialmente ofensivas. Fazendo isso, a gente queria descobrir quando o consenso geral pode realmente estar errado.
Levamos em conta as experiências pessoais dos anotadores, assim como suas opiniões sobre conteúdo similar na internet. Também usamos perguntas mais simples e menos invasivas pra coletar informações sobre as experiências online dos anotadores, em vez de perguntas demográficas intrusivas. Isso facilitou respeitar a privacidade deles e ainda conseguir prever como eles responderiam ao texto.
Por Que A Opinião Individual Importa?
Quando a gente analisa afirmações potencialmente ofensivas, é crucial considerar as perspectivas das pessoas que podem ser prejudicadas por essas afirmações. Votos da maioria podem obscurecer as vozes desses indivíduos. Modelando as opiniões de grupos específicos, conseguimos obter insights valiosos que podem guiar as decisões de Moderação de Conteúdo.
Por exemplo, se uma afirmação é analisada e os anotadores que pertencem ao grupo-alvo discordam fortemente da avaliação da maioria, isso pode indicar que a afirmação é prejudicial de maneiras que a maioria não reconhece. Entender essas opiniões diferentes permite uma abordagem mais sutil pra determinar se uma afirmação é realmente ofensiva.
Anotação e Seus Desafios
O normalmente, ter várias pessoas rotulando dados ajuda a garantir que a gente capture uma ampla gama de opiniões. Se quase todo mundo concorda em um rótulo, é provável que as opiniões divergentes venham de falta de atenção ou mal-entendidos. Mas em áreas onde as opiniões variam bastante com base na experiência pessoal, como na detecção de discurso de ódio, essa suposição pode ser falha.
Pesquisas mostram que anotadores menos experientes podem ser mais propensos a rotular frases como discurso de ódio, enquanto aqueles com experiência relevante podem ver o problema de forma diferente. Se a gente só focar no rótulo da maioria, corremos o risco de ignorar perspectivas sutis que podem levar a um mal-entendido sobre o que é realmente prejudicial.
Nossa Abordagem
Construímos um modelo que captura as avaliações individuais dos anotadores enquanto prevê quais Grupos Demográficos podem ser afetados por um determinado texto. Fazendo isso, pretendíamos abordar dois objetivos principais:
Identificar Exemplos Chave de Discordância: Queríamos identificar onde os membros do grupo-alvo expressaram opiniões diferentes da maioria. Reconhecendo essas instâncias, poderíamos destacar casos onde a visão da maioria pode ser enganosa ou errada.
Minimizar a Coleta de Dados: Queríamos descobrir uma forma de prever as avaliações sem precisar depender muito de dados demográficos sensíveis. Focando em entender as experiências e preferências online dos anotadores, conseguimos prever suas opiniões de forma mais eficiente e ética.
Coletando Informações Úteis
Pra prever como os anotadores individuais avaliariam um texto, coletamos tanto informações demográficas quanto respostas a pesquisas sobre seus hábitos online. Pra cada anotador, compilamos uma gama de informações incluindo raça, gênero, posição política e como eles veem conteúdo tóxico online.
Organizamos essas informações em entradas estruturadas pra alimentar nosso modelo, que foi treinado pra prever como cada anotador avaliaria afirmações baseado no contexto e experiências deles. O objetivo era melhorar nosso entendimento das opiniões individuais enquanto minimizávamos a carga de perguntas demográficas intrusivas.
Avaliando o Modelo
Avaliamos a performance do modelo comparando quão bem ele previu as avaliações individuais dos anotadores em relação a uma linha de base que dependia de avaliações médias. Medimos a precisão das previsões tanto sobre as respostas individuais quanto sobre o consenso geral entre os anotadores.
Os resultados mostraram que nosso modelo superou significativamente a linha de base. Por exemplo, ele melhorou a precisão da previsão para as avaliações individuais em 22% e para a variação entre os anotadores em 33%. Isso indicou que quando consideramos os contextos e opiniões individuais, conseguimos capturar melhor as complexidades dos dados.
Previsão de Grupos Alvo
Um aspecto essencial do nosso modelo foi a capacidade de prever quais grupos demográficos poderiam ser prejudicados por uma afirmação. Durante o treinamento, ajustamos o modelo com dados que incluíam exemplos de texto junto com os grupos-alvo associados. Ao prever esses grupos, conseguimos aprofundar ainda mais nosso entendimento sobre como uma linguagem específica pode afetar diferentes públicos.
Esse módulo de previsão usou uma abordagem de processamento de linguagem natural pra melhorar a precisão. Avaliamos sua performance anotando manualmente um subconjunto de exemplos pra comparar as previsões do modelo com as demografias reais. Esse processo ajudou a confirmar que o modelo estava identificando corretamente os grupos-alvo.
Performance Completa do Modelo
Combinando ambos os módulos de previsão, conseguimos avaliar a eficácia geral do nosso sistema. O modelo identificou com sucesso os grupos-alvo e previu suas avaliações para conteúdo potencialmente ofensivo. Essa foi uma tarefa desafiadora porque envolvia entender como pessoas de grupos sub-representados poderiam reagir a afirmações.
Através dessa abordagem combinada, medimos a performance do modelo em refletir com precisão as opiniões dos membros do grupo-alvo. Encontramos que o modelo capturou efetivamente essas perspectivas e melhorou nosso entendimento de onde a opinião da maioria pode falhar.
Respeitando a Privacidade
Uma das considerações principais no nosso trabalho foi garantir que respeitamos a privacidade dos anotadores. Coletar informações demográficas pode levar a preocupações de privacidade, especialmente quando se relaciona a características sensíveis. Portanto, fizemos esforços pra coletar informações de uma forma que não tornasse os indivíduos facilmente identificáveis.
Descobrimos que perguntas de pesquisa sobre preferências online poderiam servir como bons proxies pra informações demográficas. Essa abordagem reduziu a necessidade de perguntas intrusivas enquanto ainda nos dava insights valiosos sobre as perspectivas dos anotadores.
Implicações para Detecção de Discurso de Ódio
Nossas descobertas têm implicações importantes pros sistemas de detecção de discurso de ódio. Ao prever as opiniões dos membros do grupo-alvo, podemos melhorar a precisão dos processos de moderação de conteúdo automatizados. Quando o modelo identifica afirmações que podem ser ofensivas pra grupos específicos, podemos sinalizar essas para uma revisão mais cuidadosa por moderadores humanos.
Isso permite que os sistemas lidem melhor com as nuances do discurso de ódio, reconhecendo que as opiniões dentro de um demográfico podem diferir e que algumas afirmações podem ser prejudiciais dependendo do contexto. Além disso, entender a variação nas anotações ajuda a avaliar a confiança das previsões do modelo, garantindo que casos incertos recebam a atenção apropriada.
Enfrentando Desafios Futuros
Embora nossa abordagem tenha mostrado potencial, ainda existem desafios a serem considerados. Por exemplo, conduzimos nossa pesquisa em textos em inglês de regiões específicas, o que levanta questões sobre quão bem esses achados podem ser generalizados pra outras línguas ou culturas. Comunidades diferentes podem enfrentar questões únicas no que diz respeito ao discurso de ódio, e trabalhos futuros devem explorar como adaptar nossos métodos de acordo.
Além disso, devemos considerar as implicações éticas de modelar opiniões baseadas em dados demográficos. É fundamental garantir que nossas análises não reduzam os indivíduos a meras estatísticas ou assumam uma opinião monolítica dentro de qualquer grupo demográfico. Pesquisas futuras devem focar em melhorar a representação nos esforços de coleta de dados pra abordar essas preocupações.
Conclusão
Em resumo, apresentamos um modelo que prevê as avaliações individuais dos anotadores sobre a ofensa de textos enquanto identifica grupos demográficos potencialmente afetados. Ao considerar as perspectivas únicas dos indivíduos e minimizar a necessidade de dados demográficos intrusivos, mostramos que é possível obter insights valiosos sobre as complexidades da detecção de discurso de ódio.
A capacidade do modelo de prever as avaliações dos grupos-alvo melhora a compreensão da discordância entre opiniões majoritárias e minoritárias. Este trabalho serve como uma base para futuras pesquisas que buscam aprimorar a precisão e justiça das aplicações de aprendizado de máquina, respeitando a privacidade e dignidade de todos os envolvidos.
Ouvindo vozes diversas e reconhecendo a importância das experiências vividas, podemos avançar pra uma abordagem mais inclusiva e eficaz pra lidar com questões sensíveis em aprendizado de máquina e além.
Título: When the Majority is Wrong: Modeling Annotator Disagreement for Subjective Tasks
Resumo: Though majority vote among annotators is typically used for ground truth labels in natural language processing, annotator disagreement in tasks such as hate speech detection may reflect differences in opinion across groups, not noise. Thus, a crucial problem in hate speech detection is determining whether a statement is offensive to the demographic group that it targets, when that group may constitute a small fraction of the annotator pool. We construct a model that predicts individual annotator ratings on potentially offensive text and combines this information with the predicted target group of the text to model the opinions of target group members. We show gains across a range of metrics, including raising performance over the baseline by 22% at predicting individual annotators' ratings and by 33% at predicting variance among annotators, which provides a metric for model uncertainty downstream. We find that annotator ratings can be predicted using their demographic information and opinions on online content, without the need to track identifying annotator IDs that link each annotator to their ratings. We also find that use of non-invasive survey questions on annotators' online experiences helps to maximize privacy and minimize unnecessary collection of demographic information when predicting annotators' opinions.
Autores: Eve Fleisig, Rediet Abebe, Dan Klein
Última atualização: 2024-03-17 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.06626
Fonte PDF: https://arxiv.org/pdf/2305.06626
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.