Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Computadores e sociedade# Interação Homem-Computador# Redes Sociais e de Informação

O Desafio da Contraposição na Moderação Online

Analisando a diferença entre usar e mencionar em conversas online.

― 7 min ler


Contraponto: Um DilemaContraponto: Um DilemaDigitalconversas online que fazem sentido.Classificações erradas ameaçam
Índice

Em nossas conversas diárias, a gente costuma usar palavras de jeitos diferentes. Às vezes, usamos elas pra expressar ideias diretamente, e outras vezes mencionamos pra falar sobre o significado delas ou pra citar algo que outra pessoa disse. Esse conceito é chamado de distinção uso-menção. Essa distinção é super importante, principalmente quando estamos falando de discurso prejudicial online, que muitas vezes é chamado de contradiscurso, que tem o objetivo de desafiar mensagens negativas ou enganosas.

O que é Contradiscurso?

Contradiscurso é uma resposta feita por indivíduos em plataformas online pra combater discurso prejudicial. Isso pode incluir Discurso de ódio ou Desinformação. Quando as pessoas se envolvem no contradiscurso, elas podem mencionar ou citar conteúdos problemáticos pra expressar desaprovação ou fornecer um ponto de vista alternativo. No entanto, muitos sistemas online que moderam conteúdo costumam classificar esses esforços de contradiscurso como prejudiciais, levando a uma censura desnecessária.

Importância de Distinguir Uso de Menção

A diferença entre usar uma palavra e mencioná-la é importante pra entender a intenção do falante. Por exemplo, dizer "Bananas são amarelas" usa a palavra "bananas" pra transmitir uma informação. Em contraste, dizer "'Bananas' é uma palavra com sete letras" só menciona o termo sem usá-lo pra expressar uma ideia. Quando os algoritmos não conseguem perceber a diferença entre esses dois usos, podem classificar erroneamente menções inofensivas de termos prejudiciais como prejudiciais em si.

Desafios Enfrentados por Sistemas de PLN

Os sistemas de Processamento de Linguagem Natural (PLN), que sustentam muitas ferramentas de moderação online, costumam ter dificuldades com essa distinção. Eles podem interpretar uma menção de um termo prejudicial dentro de um contexto de contradiscurso como um endosse daquela ideia prejudicial. Isso leva a muitas conversas produtivas sendo suprimidas. Por exemplo, se alguém diz: "Precisamos abordar as falsas alegações sobre vacinas", o sistema pode ver a palavra "vacinas" e rotular essa afirmação como prejudicial.

A Necessidade de Classificação Precisa

Classificar erroneamente o contradiscurso não só silencia vozes que desafiam narrativas prejudiciais, mas também pode propagar desinformação ao deletar diálogos construtivos. Isso pode prejudicar indivíduos que já estão afetados por discurso negativo, pois remove oportunidades de corrigir mal-entendidos ou crenças prejudiciais.

Questões Principais com Modelos de PLN Atuais

  1. Falta de Dados de Treinamento: Muitos modelos de PLN não têm exemplos suficientes pra aprender a distinguir entre uso e menção de forma eficaz, o que leva a erros.

  2. Contextos Informais: Como o contradiscurso costuma acontecer em chats casuais, pode faltar as marcas formais que costumam indicar quando algo está sendo citado. Por exemplo, as aspas ou itálico podem estar ausentes nas conversas online do dia a dia.

  3. Menções Menos Frequentes: Menções de conteúdo prejudicial são menos comuns que usos diretos, fazendo os pesquisadores ignorarem a importância delas na análise do discurso online.

O Impacto de Classificações Errôneas

Quando os modelos de PLN erram, as consequências podem ser significativas. Por exemplo, sistemas que classificam erroneamente o contradiscurso podem levar a conteúdo sendo sinalizado ou removido incorretamente, apagando assim a chance de indivíduos desafiarem narrativas prejudiciais. Isso pode perpetuar os mesmos problemas que o contradiscurso tenta abordar.

Entendendo a Distinção Uso-Menção

Pra enfrentar esses desafios, os pesquisadores levantaram várias hipóteses sobre a distinção uso-menção. Eles focaram em duas tarefas principais:

  1. Tarefa de Classificação: A primeira tarefa é determinar se uma afirmação está usando linguagem prejudicial ou simplesmente mencionando-a.

  2. Tarefa de Fluxo Secundário: A segunda tarefa diz respeito a como essas classificações afetam processos subsequentes, como a detecção de discurso de ódio e desinformação.

Através dessas hipóteses, os pesquisadores realizaram vários experimentos pra explorar quão bem os sistemas de PLN conseguem distinguir entre uso e menção.

Analisando Erros nas Classificações

Ao testar vários modelos, os pesquisadores descobriram que as taxas de erro em reconhecer uso versus menção eram bem altas. Por exemplo, muitos sistemas identificaram menções casuais de termos prejudiciais como prejudiciais em si. Isso mostra uma clara lacuna na eficácia dos modelos de PLN atuais.

Exemplos de Classificações Errôneas

  • Detecção de Discurso de Ódio: Quando ferramentas de PLN classificam erroneamente o contradiscurso como discurso de ódio, isso resulta em altas taxas de falsos positivos, ou seja, identificam incorretamente conteúdo não prejudicial como prejudicial.
  • Detecção de Desinformação: Da mesma forma, classificar erroneamente o contradiscurso como desinformação leva a uma censura desnecessária, limitando discussões construtivas.

Fatores que Contribuem para Classificações Errôneas

  1. Termos de Identidade: A presença de termos relacionados à identidade pode influenciar fortemente as decisões feitas pelos sistemas de PLN. Se um contradiscurso menciona uma identidade específica, pode ser sinalizado como prejudicial apesar da intenção de combater discurso de ódio.

  2. Tópicos Controversos: Certos termos associados a questões sensíveis, como vacinas durante a pandemia de COVID-19, podem desencadear classificações errôneas devido à sensibilidade aumentada nos sistemas de PLN.

  3. Linguagem de Citação: Textos que usam aspas são frequentemente classificados de forma errada porque o sistema pode perceber uma citação direta como prejudicial, em vez de reconhecê-la como uma referência.

Possíveis Soluções para Melhoria

Pra melhorar como os sistemas de PLN lidam com o contradiscurso, os pesquisadores propuseram várias estratégias:

  1. Ensinar a Distinção: Incorporando definições explícitas de uso e menção nos dados de treinamento, os modelos de PLN podem aprender a diferenciar melhor entre usos prejudiciais e menções inofensivas.

  2. Técnicas de Pergunta: Uma estratégia eficaz envolve usar perguntas específicas que incentivam os modelos a pensar criticamente se uma declaração usa ou menciona a linguagem.

  3. Testes de Redução de Erros: Testando diferentes abordagens e avaliando seus resultados, os pesquisadores podem refinar técnicas que ajudam os sistemas a distinguir entre uso e menção de forma mais precisa, reduzindo erros subsequentes.

Implicações para Moderação de Conteúdo

Com a moderação de conteúdo se tornando cada vez mais vital em espaços online, entender a distinção uso-menção é essencial. Muitas plataformas reconhecem o valor do contradiscurso e têm diretrizes explícitas pra incentivar debates construtivos. No entanto, sem modelos rigorosos que classifiquem corretamente a linguagem, as políticas de moderação podem, sem querer, silenciar vozes valiosas.

A Importância das Considerações Éticas

Enquanto trabalhamos pra melhorar os sistemas de PLN, é crucial considerar as implicações éticas de seu funcionamento. A classificação errônea de menções pode prejudicar não só aqueles que se envolvem no contradiscurso, mas também aqueles que podem ser indiretamente afetados pelo processo de moderação de conteúdo. Além disso, o contradiscurso pode às vezes ser usado como arma pra assediar ou silenciar indivíduos com opiniões divergentes, exigindo cuidado na implementação de tais sistemas.

Direções Futuras para Pesquisa

Estudos futuros devem expandir a análise da linguagem de menção em vários contextos, incluindo ambientes de sala de aula, discussões legais e comunicação interpessoal. A exploração de como a menção impacta a compreensão nessas áreas pode fornecer insights mais profundos sobre a linguagem do discurso online.

Além disso, discussões contínuas devem examinar as complexidades de saber se certas menções são realmente prejudiciais ou construtivas, considerando a dinâmica social e o contexto.

Conclusão

A distinção uso-menção é uma área vital de estudo pra PLN e moderação de conteúdo online. Ao melhorar a capacidade dos sistemas de reconhecer essa distinção, podemos promover um ambiente online mais seguro e construtivo. Além disso, enquanto continuamos a refinar nossa abordagem, devemos permanecer atentos às implicações éticas e aos valores sociais em jogo no desenvolvimento dessas tecnologias. Garantir que o contradiscurso permaneça protegido enquanto ainda enfrentamos os desafios do discurso prejudicial é um equilíbrio delicado que requer atenção e inovação contínuas.

Fonte original

Título: NLP Systems That Can't Tell Use from Mention Censor Counterspeech, but Teaching the Distinction Helps

Resumo: The use of words to convey speaker's intent is traditionally distinguished from the `mention' of words for quoting what someone said, or pointing out properties of a word. Here we show that computationally modeling this use-mention distinction is crucial for dealing with counterspeech online. Counterspeech that refutes problematic content often mentions harmful language but is not harmful itself (e.g., calling a vaccine dangerous is not the same as expressing disapproval of someone for calling vaccines dangerous). We show that even recent language models fail at distinguishing use from mention, and that this failure propagates to two key downstream tasks: misinformation and hate speech detection, resulting in censorship of counterspeech. We introduce prompting mitigations that teach the use-mention distinction, and show they reduce these errors. Our work highlights the importance of the use-mention distinction for NLP and CSS and offers ways to address it.

Autores: Kristina Gligoric, Myra Cheng, Lucia Zheng, Esin Durmus, Dan Jurafsky

Última atualização: 2024-04-02 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2404.01651

Fonte PDF: https://arxiv.org/pdf/2404.01651

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes