Abordando a Discordância entre Anotadores no Processamento de Linguagem
Analisando como as diferentes opiniões sobre rotulação de linguagem impactam a compreensão.
― 6 min ler
Índice
- Entendendo a Discordância entre Rotuladores
- O Problema dos Rótulos Fixos
- A Necessidade de Rótulos Flexíveis
- A Tarefa Le-Wi-Di
- Abordagem de Aprendizado Multi-Tarefa
- Os Benefícios de Modelar Perspectivas
- Datasets Usados no Estudo
- Avaliação do Modelo
- Resultados e Observações
- Desafios com Dados Esparsos
- A Importância de Capturar Opiniões Diversas
- Avançando com Novas Métricas
- Considerações Éticas
- Conclusão
- Fonte original
- Ligações de referência
No mundo do processamento de linguagem, às vezes rola de a galera discordar sobre como rotular certos tipos de comentários, principalmente em tópicos sensíveis como discurso de ódio e linguagem abusiva. Essa discordância acontece porque cada um tem suas opiniões, baseadas nas experiências e crenças que possui. Então, é super importante ter um sistema que não só identifique quando há desacordo entre quem rotula, mas que também aprofunde nas perspectivas individuais de cada um.
Entendendo a Discordância entre Rotuladores
Quando tentam entender a linguagem, os pesquisadores geralmente pedem pra um grupo de pessoas rotular certos textos. Por exemplo, eles podem perguntar pra várias pessoas se um tweet é odioso ou não. Mas, como cada um tem sua visão, é normal que duas pessoas rotulem o mesmo tweet de maneira diferente. Essa diferença de rotulagem é o que chamamos de "discordância entre rotuladores." É crucial perceber que ter um único rótulo pra um texto, muitas vezes chamado de "verdade fundamental", pode às vezes ignorar as opiniões variadas dos diferentes rotuladores.
O Problema dos Rótulos Fixos
A abordagem tradicional de rotulagem envolve criar um único "rótulo fixo" usando métodos como a média dos rótulos fornecidos por todos os rotuladores ou fazendo uma votação da maioria. Isso significa que, se vários rotuladores discordam, a perspectiva da minoria pode facilmente se perder, especialmente quando essas opiniões pertencem a grupos marginalizados que enfrentam desafios ou abusos com frequência. Em situações assim, rótulos fixos podem mascarar as experiências e opiniões de quem é afetado.
A Necessidade de Rótulos Flexíveis
Diante dos problemas com rótulos fixos, surgiu a ideia de usar "rótulos flexíveis". Em vez de tentar encaixar textos em uma única categoria, rótulos flexíveis mostram a probabilidade de diferentes classificações com base em todas as opiniões anotadas. Usando rótulos flexíveis, conseguimos entender melhor como os rotuladores se sentem sobre um texto e acompanhar o grau de desacordo entre eles.
A Tarefa Le-Wi-Di
A tarefa Le-Wi-Di foi criada pra incentivar equipes a bolar soluções pra entender como diferentes rotuladores classificam textos nos quais discordam. O objetivo é introduzir abordagens mais flexíveis que vão além de um único rótulo e em vez disso abracem a variedade de opiniões que existem nos datasets.
Abordagem de Aprendizado Multi-Tarefa
Uma solução proposta envolve um modelo de aprendizado multi-tarefa. Esse modelo vê a rotulagem de cada rotulador como uma tarefa separada. Assim, ele busca prever o julgamento específico de cada rotulador pra cada instância no dataset. As descobertas desse modelo poderiam ser usadas pra avaliar o quanto de discordância existe sem ter que desenhar um modelo especificamente pra esse propósito.
Os Benefícios de Modelar Perspectivas
Ao focar nas perspectivas, fica possível capturar e entender as nuances ao redor de cada rótulo individual. Isso pode ajudar a destacar opiniões da minoria e garantir que elas não sejam ignoradas no processo de classificação. Um foco nas perspectivas individuais também permite uma visão mais ampla das questões apresentadas, proporcionando insights mais detalhados sobre as opiniões das pessoas.
Datasets Usados no Estudo
Pra essa tarefa, vários datasets foram montados, cada um abordando diversos tópicos que provavelmente levariam a desacordos entre os rotuladores. Um incluía tweets sobre o Brexit, outro trazia tweets em árabe relacionados a misoginia e um terceiro continha diálogos entre usuários e agentes de conversação. Esses datasets foram escolhidos especificamente pela sua capacidade de revelar altos níveis de desacordo.
Avaliação do Modelo
O sucesso dos modelos desenvolvidos pode ser medido usando dois métodos principais: pontuações F1 e perda de entropia cruzada pra rótulos flexíveis. A pontuação F1 mede quão bem o modelo se saiu em prever rótulos fixos, enquanto a perda de entropia cruzada fornece informações sobre quão precisamente o modelo prevê rótulos flexíveis.
Resultados e Observações
Os resultados dos testes com vários modelos mostraram que, embora abordagens multi-tarefa tenham seus benefícios, elas nem sempre superam os modelos de tarefa única em termos de precisão de previsão. Por exemplo, em tarefas com muitos rotuladores e dados esparsos, o modelo multi-tarefa teve dificuldades. Por outro lado, os modelos de tarefa única mostraram melhor desempenho graças à sua classificação mais direta.
Desafios com Dados Esparsos
Quando se trabalha com grandes datasets, especialmente com muitos rotuladores contribuindo com poucas etiquetas, fica complicado modelar as perspectivas individuais de forma precisa. Em um dataset, surpreendentemente, 91% dos rotuladores não contribuíram pra cada divisão dos dados, o que gerou dificuldades em fazer previsões precisas e entender o espectro de perspectivas disponíveis.
A Importância de Capturar Opiniões Diversas
Simplesmente medir o nível de desacordo não é suficiente. Também é importante capturar as diferentes opiniões e crenças presentes entre os rotuladores. Os pesquisadores argumentam que focar apenas no desacordo pode levar à perda de insights valiosos sobre por que as discordâncias existem em primeiro lugar. Entender as várias perspectivas permite previsões mais robustas que podem considerar as razões subjacentes das discordâncias.
Avançando com Novas Métricas
Indo além das métricas de avaliação atuais, há uma necessidade urgente de desenvolver ferramentas melhores que possam capturar e refletir a complexidade das opiniões entre os rotuladores. O objetivo seria criar métricas que respeitem e amplifiquem as vozes da minoria, em vez de diminuí-las.
Considerações Éticas
No campo do processamento de linguagem, é essencial lidar com os dados e as opiniões representadas com cuidado. Um exemplo disso é abordar assuntos sensíveis como abuso ou discurso de ódio. As opiniões de grupos marginalizados devem ser tratadas com respeito, garantindo que suas perspectivas sejam capturadas com precisão, em vez de simplificadas ou ignoradas.
Conclusão
Entender a discordância entre rotuladores é vital pra desenvolver modelos que possam lidar com questões sociais de forma justa. A necessidade de rótulos flexíveis e modelos de aprendizado multi-tarefa ajuda a reconhecer e respeitar a diversidade de opiniões que existem dentro dos datasets. Ao fomentar métodos que abracem as várias perspectivas, podemos garantir que vozes importantes sejam amplificadas, em vez de silenciadas. Avançando, melhores métricas e abordagens ajudarão a aprofundar nossa compreensão dessas questões complexas.
Título: iLab at SemEval-2023 Task 11 Le-Wi-Di: Modelling Disagreement or Modelling Perspectives?
Resumo: There are two competing approaches for modelling annotator disagreement: distributional soft-labelling approaches (which aim to capture the level of disagreement) or modelling perspectives of individual annotators or groups thereof. We adapt a multi-task architecture -- which has previously shown success in modelling perspectives -- to evaluate its performance on the SEMEVAL Task 11. We do so by combining both approaches, i.e. predicting individual annotator perspectives as an interim step towards predicting annotator disagreement. Despite its previous success, we found that a multi-task approach performed poorly on datasets which contained distinct annotator opinions, suggesting that this approach may not always be suitable when modelling perspectives. Furthermore, our results explain that while strongly perspectivist approaches might not achieve state-of-the-art performance according to evaluation metrics used by distributional approaches, our approach allows for a more nuanced understanding of individual perspectives present in the data. We argue that perspectivist approaches are preferable because they enable decision makers to amplify minority views, and that it is important to re-evaluate metrics to reflect this goal.
Autores: Nikolas Vitsakis, Amit Parekh, Tanvi Dinkar, Gavin Abercrombie, Ioannis Konstas, Verena Rieser
Última atualização: 2023-05-10 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.06074
Fonte PDF: https://arxiv.org/pdf/2305.06074
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.