Detectando Misoginia na Linguagem das Redes Sociais Italianas
Um estudo sobre como identificar linguagem misógina através de palavras pejorativas em tweets.
― 9 min ler
Índice
- Linguagem Pejorativa
- Perguntas de Pesquisa e Metodologia
- Compilação do Corpus
- Anotação de Dados
- Metodologia pra Detectar Misoginia
- Resultados e Avaliação
- Análise Qualitativa de Erros
- Análise de Embeddings de Palavras
- Análise de Modelos de Linguagem
- Conclusão
- Considerações Éticas
- Fonte original
- Ligações de referência
A misoginia muitas vezes aparece através de palavras machucantes, então é super importante encontrar jeitos de detectar isso nas redes sociais. Muitas palavras neutras podem ter conotações negativas quando usadas como ofensas. Entender o significado dessas palavras é crucial para identificar a linguagem misógina. Pra ajudar, apresentamos uma nova coleção de 1.200 tweets italianos que foram cuidadosamente rotulados pra mostrar tanto a linguagem prejudicial quanto o conteúdo misógino.
Linguagem Pejorativa
Linguagem pejorativa se refere a palavras ou frases que podem menosprezar ou insultar alguém. Por exemplo, algumas palavras podem parecer inofensivas, mas podem ter um significado negativo dependendo de como são usadas. Certos termos podem se referir tanto a ideias neutras quanto a características negativas. A forma como esses termos mudam de significado depende do contexto. Essa mudança de significado é conhecida como pejorização.
Em contraste, a meliorização é quando um termo que começa negativo acaba adquirindo um significado neutro ou positivo. Por exemplo, alguns insultos podem ser resgatados pelos grupos contra os quais foram usados, mudando seu impacto ao longo do tempo.
Os termos pejorativos são especialmente relevantes quando se busca sinais de misoginia, já que muitas palavras inofensivas costumam ser usadas pra insultar mulheres, focando na aparência ou inteligência delas. Chamamos esses termos prejudiciais de "epítetos pejorativos". Exemplos em italiano incluem "balena", que significa "baleia" e é usado pra insultar mulheres acima do peso, e "gallina", que significa "galinha", mas pode implicar burrice.
Modelos de linguagem modernos têm dificuldade em identificar com precisão a linguagem misógina quando frases incluem esses termos complicados. Quando palavras que podem ter múltiplos significados estão presentes nos dados de treinamento, mas não nos dados de teste, isso resulta em muitos erros de classificação.
Pra melhorar a detecção da linguagem misógina, propomos desambiguar os termos pejorativos primeiro. Nosso objetivo é descobrir se esclarecer termos potencialmente prejudiciais pode levar a uma melhor identificação da linguagem misógina, enquanto reduz erros.
Perguntas de Pesquisa e Metodologia
Pra enfrentar nossos objetivos, focamos em três perguntas principais:
- Quais palavras pejorativas são usadas comumente contra mulheres online?
- Podemos melhorar modelos pra identificar se palavras em tweets são usadas de forma negativa ou neutra?
- Quão bem os modelos de linguagem entendem palavras pejorativas em contexto?
Pra abordar a primeira pergunta, criamos uma lista de termos ofensivos usados pra atacar mulheres. Isso ajuda a reunir tweets que contêm essas palavras, que usamos pra construir nossa coleção de 1.200 tweets.
Pra segunda pergunta, ajustamos dois modelos baseados no BERT, um modelo popular de compreensão de linguagem. O primeiro modelo determina se uma palavra em um tweet é usada de forma negativa ou neutra, enquanto o segundo modelo detecta misoginia. Os resultados do primeiro modelo ajudam a informar o segundo sobre a natureza das palavras usadas.
Em resposta à terceira pergunta, analisamos quão bem modelos de linguagem maiores entendem esses termos pejorativos usando seus padrões de palavras em contexto.
Compilação do Corpus
Pra reunir as palavras pejorativas usadas contra mulheres nas comunidades online italianas, seguimos dois passos principais:
Criando um Léxico: Reunimos uma lista de palavras de várias fontes, incluindo contribuições de falantes nativos que usam regularmente redes sociais e bancos de dados existentes de termos ofensivos. O foco é em palavras polissêmicas- aquelas com significados neutros e negativos.
Recuperando Tweets: Usando a lista compilada, coletamos tweets que incluem esses termos pejorativos. Pra nossa coleção, buscamos uma mistura equilibrada de tweets usando essas palavras de forma neutra e ofensiva.
Pra garantir a qualidade das nossas escolhas lexicais, verificamos manualmente se essas palavras podem ser usadas de ambas as maneiras, pesquisando por elas no Twitter. Como resultado, acabamos com uma lista final de 24 palavras que têm esse uso dual.
Anotação de Dados
Pra rotular nosso conjunto de dados de acordo com os significados das palavras e a detecção de misoginia, recrutamos seis anotadores com expertise em várias áreas. Inicialmente, conduzimos um estudo piloto pra explorar os desafios na rotulagem e verificar diferenças de perspectiva entre anotadores homens e mulheres.
A anotação segue uma abordagem flexível, permitindo julgamentos pessoais sem diretrizes rígidas. Cada anotador examina 50 tweets. A consistência dos rótulos é posteriormente medida usando uma ferramenta de análise estatística, mostrando um acordo moderado entre o grupo.
Através do feedback recebido dos anotadores, identificamos várias áreas-chave de debate:
Falta de Contexto: Alguns tweets são muito breves, tornando a intenção do autor pouco clara. Rotulamos esses como neutros quando o significado não pode ser determinado.
Elogios Objetificantes: Alguns tweets podem parecer elogiosos na superfície, mas na verdade são objetificantes. Classificamos esses como pejorativos.
Uso em Relacionamento a Objetos: Um termo usado negativamente pra um objeto inanimado não torna automaticamente pejorativo. Rotulamos esses como neutros.
Termos Pejorativos Contra Homens: Palavras usadas pra insultar homens devem ser rotuladas como pejorativas, mesmo que não se refiram ao foco principal do estudo.
Discurso Reportado: Se um termo pejorativo é usado em discurso reportado, ele ainda pode ser considerado negativo, apesar do contexto geral ser neutro. Classificamos esses como pejorativos.
Após os estudos piloto, anotamos nossa coleção de 1.200 tweets. Pra garantir a precisão, um anotador cuida dessa tarefa, garantindo consistência no conjunto de dados. A correlação final entre misoginia e rótulos pejorativos mostra uma ligação significativa- muitos tweets que contêm palavras pejorativas também são identificados como misóginos.
Metodologia pra Detectar Misoginia
Pra avaliar a eficácia da nossa abordagem, utilizamos um modelo popular baseado em BERT chamado AlBERTo. Ajustamos ele pra realizar desambiguação de palavras pejorativas e detecção de misoginia.
A tarefa de desambiguação envolve identificar se uma palavra em uma frase é pejorativa ou neutra. Essa classificação ajuda a enriquecer a entrada pro modelo de detecção de misoginia. Exploramos dois métodos pra fazer isso:
- Concatenação: Adicionando informações sobre se as palavras são pejorativas no final dos tweets.
- Substituição: Substituindo termos ambíguos por seus equivalentes claros e não ambíguos.
Fizemos experimentos com nosso conjunto de dados e conjuntos de dados de referência, buscando melhorias na precisão da classificação.
Resultados e Avaliação
Os resultados dos nossos experimentos mostram que a desambiguação de palavras pejorativas melhora significativamente a detecção da linguagem misógina. Ambos os métodos que tentamos- concatenação e substituição- mostram melhorias claras na performance do modelo.
Também analisamos as taxas de falsos positivos, observando quantas vezes o modelo rotula incorretamente tweets neutros como misóginos. Após aplicar nossa desambiguação de palavras pejorativas, observamos uma queda notável nos falsos positivos, especialmente no nosso conjunto de teste.
Enquanto vemos ganhos nos nossos resultados, o impacto em conjuntos de dados de referência mais antigos é mais limitado devido ao número menor de exemplos pejorativos. Isso sugere que nossa abordagem funciona melhor quando o conjunto de treinamento inclui uma boa mistura de usos pejorativos e neutros.
Análise Qualitativa de Erros
Pra entender melhor onde nossos modelos têm dificuldades, revisamos manualmente tweets mal classificados em diferentes configurações.
Em casos onde a misoginia reportada está presente, os modelos frequentemente têm problemas em reconhecer a intenção por trás de um termo pejorativo usado em um contexto condenatório. Além disso, quando termos pejorativos são direcionados a homens, essas instâncias às vezes são classificadas incorretamente como misóginas.
Análise de Embeddings de Palavras
Pra analisar quão bem nosso modelo aprende os significados das palavras pejorativas, extraímos e estudamos os embeddings de palavras que ele usa. Esses embeddings ajudam a retratar quão relacionadas as palavras são em significado.
Olhamos especificamente pra similaridade média entre nossos termos pejorativos e suas palavras ancla neutras ou negativas. Os achados mostram uma distinção clara em como bem o modelo captura o contexto após o ajuste- indicando que realmente aprendeu a entender melhor o significado por trás dessas palavras.
Análise de Modelos de Linguagem
Pra investigar melhor a compreensão em torno dos termos pejorativos, pedimos a modelos de linguagem populares que esclarecessem os significados dessas palavras no contexto, sem nenhum treinamento prévio.
Três modelos de código aberto foram testados, e descobrimos que enquanto um modelo se sai bem em entender variações sutis de significado, outros têm grandes dificuldades e frequentemente fornecem respostas genéricas que não esclarecem os termos de forma eficaz.
Isso revela uma lacuna em quão bem esses modelos compreendem significados mais sutis, sugerindo que um desenvolvimento e treinamento adicionais poderiam resultar em melhores resultados.
Conclusão
Introduzimos um método pra desambiguar palavras pejorativas como um primeiro passo na detecção de misoginia em tweets. Ao construir uma coleção abrangente de palavras polissêmicas e um novo conjunto de dados de tweets, mostramos que esclarecer significados de palavras pode melhorar os esforços de detecção.
Os experimentos destacam a capacidade do nosso modelo de reduzir taxas de classificação incorreta, e nossa análise de embeddings de palavras ilustra uma melhor compreensão de significados sutis após o ajuste.
Finalmente, descobrimos que outros modelos de linguagem têm espaço pra melhoria quando se trata de desambiguar termos pejorativos. Esforços futuros podem incluir expandir esse trabalho pra mais idiomas e culturas, o que permitiria uma perspectiva mais ampla sobre como a linguagem molda percepções de gênero.
Considerações Éticas
Nos certificamos de seguir as diretrizes do Twitter para uso de dados enquanto coletávamos nosso conjunto de dados de tweets publicamente disponíveis. A anonimidade das pessoas mencionadas em nosso trabalho é estritamente mantida.
Enquanto nossa pesquisa foca na língua italiana, os achados sugerem o potencial de estender essa abordagem pra mais idiomas. Isso proporcionaria mais insights sobre o uso de termos pejorativos e suas implicações em diferentes contextos culturais.
Embora nossos achados sejam valiosos, reconhecemos as limitações da perspectiva de um único anotador e os desafios introduzidos pelas substituições de palavras que podem não ter sempre o mesmo significado.
Conforme avançamos, incorporar uma gama mais ampla de modelos e abordar as limitações mencionadas anteriormente fortalecerá nossa compreensão da linguagem no contexto da detecção de misoginia.
Título: PejorativITy: Disambiguating Pejorative Epithets to Improve Misogyny Detection in Italian Tweets
Resumo: Misogyny is often expressed through figurative language. Some neutral words can assume a negative connotation when functioning as pejorative epithets. Disambiguating the meaning of such terms might help the detection of misogyny. In order to address such task, we present PejorativITy, a novel corpus of 1,200 manually annotated Italian tweets for pejorative language at the word level and misogyny at the sentence level. We evaluate the impact of injecting information about disambiguated words into a model targeting misogyny detection. In particular, we explore two different approaches for injection: concatenation of pejorative information and substitution of ambiguous words with univocal terms. Our experimental results, both on our corpus and on two popular benchmarks on Italian tweets, show that both approaches lead to a major classification improvement, indicating that word sense disambiguation is a promising preliminary step for misogyny detection. Furthermore, we investigate LLMs' understanding of pejorative epithets by means of contextual word embeddings analysis and prompting.
Autores: Arianna Muti, Federico Ruggeri, Cagri Toraman, Lorenzo Musetti, Samuel Algherini, Silvia Ronchi, Gianmarco Saretto, Caterina Zapparoli, Alberto Barrón-Cedeño
Última atualização: 2024-04-03 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2404.02681
Fonte PDF: https://arxiv.org/pdf/2404.02681
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.merriam-webster.com/dictionary/pejorative
- https://github.com/arimuti/PejorativITy
- https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words/tree/master
- https://twarc-project.readthedocs.io
- https://github.com/teelinsan/camoscio
- https://huggingface.co/meta-llama/Llama-2-7b-hf
- https://huggingface.co/mistralai