Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Aprendizagem de máquinas

Entendendo Mensagens Ocultas na Linguagem

Um olhar sobre a linguagem codificada e suas implicações na sociedade.

― 7 min ler


Decodificando LinguagemDecodificando LinguagemCodificadadiscursos políticos e sociais.Analisando significados ocultos em
Índice

Apitos de cachorro são uma forma de comunicação que tem significados ocultos, usados geralmente pra mandar mensagens pra grupos específicos sem alertar o público em geral. Embora possam parecer inofensivos pra muitos, os apitos de cachorro podem ter mensagens prejudiciais, especialmente em questões de raça, classe e política. Historicamente, esses termos eram comuns na política dos EUA, mas recentemente se espalharam pra redes sociais. Isso permite que os usuários expressem opiniões que podem escapar da detecção dos sistemas de alerta que servem pra pegar discursos de ódio.

Contexto Histórico dos Apitos de Cachorro

O termo "apito de cachorro" surgiu na área do discurso político, especialmente em tempos em que o racismo aberto era desaprovado, notoriamente após o Movimento dos Direitos Civis. Políticos começaram a usar linguagem codificada pra expressar preconceitos raciais sem sofrer retaliações. Isso permitiu que eles comunicassem ideias discriminatórias enquanto mantinham a aparência de não serem racistas. Com o tempo, o uso dos apitos de cachorro evoluiu e eles costumam ser adaptados pra se encaixar nos climas sociais e plataformas atuais, especialmente online.

O Papel dos Modelos de Linguagem Grande (LLMs)

Modelos de Linguagem Grande (LLMs) são sistemas de IA capazes de entender e gerar linguagem humana. Nesse contexto, os LLMs podem ajudar a identificar e explicar os apitos de cachorro analisando padrões de linguagem. Eles são especialmente úteis porque conseguem processar grandes quantidades de texto e podem ser treinados em tarefas específicas, como detectar linguagem codificada.

Importância da Desambiguação de Sentidos

Desambiguação de sentidos é uma tarefa que ajuda a distinguir entre diferentes significados das palavras com base no contexto. Por exemplo, uma palavra como "soy" pode se referir a um produto alimentar em uma situação, mas pode ser usada de forma insultuosa em outra. Muitos apitos de cachorro funcionam assim - eles podem parecer inocentes à primeira vista, mas têm um significado prejudicial em contextos específicos. Ensinar os LLMs a desambiguar esses significados é crucial pra identificar os apitos de cachorro de forma eficaz.

O Conjunto de Dados Silent Signals

Pra entender e analisar melhor o uso dos apitos de cachorro, foi criado um conjunto de dados conhecido como Silent Signals. Esse conjunto contém vários exemplos de apitos de cachorro, tanto de contextos formais, como registros do Congresso dos EUA, quanto de contextos informais, como comentários do Reddit. O objetivo do conjunto de dados é fornecer um recurso abrangente pra estudar como os apitos de cachorro são usados em diferentes contextos ao longo do tempo.

Desafios na Detecção de Apitos de Cachorro

Uma das principais dificuldades em identificar apitos de cachorro está na sutileza deles e no fato de que muitos termos têm significados comumente aceitos. Por exemplo, a palavra "soy" sozinha não sinaliza nada prejudicial, mas em certos contextos pode ser usada pra insultar um grupo específico. Sistemas tradicionais de detecção de discurso de ódio muitas vezes têm dificuldades com essas nuances, pois são projetados pra pegar linguagem abertamente ofensiva, e não frases mais sutis e codificadas.

Aplicações na Pesquisa Social e Política

Entender apitos de cachorro é essencial pra várias áreas, incluindo ciências sociais e estudos políticos. Ao analisar como os apitos de cachorro são usados, os pesquisadores podem entender melhor as dinâmicas de discriminação e como certos grupos podem usar a linguagem pra manipular a opinião pública. Esse conhecimento também pode ajudar a criar melhores sistemas de moderação de conteúdo, garantindo que discursos prejudiciais sejam identificados e tratados de forma apropriada.

Construindo o Conjunto de Dados Silent Signals

O conjunto de dados Silent Signals é construído a partir de fontes de dados públicas, principalmente Reddit e registros do Congresso dos EUA. Ao reunir uma ampla gama de exemplos, o conjunto fornece um recurso rico pra estudar a evolução e a prevalência dos apitos de cachorro. Essa coleção também inclui informações contextuais importantes pra cada entrada, permitindo uma análise mais completa de como essas frases funcionam no discurso.

Processo de Coleta de Dados

Pra criar o conjunto de dados, milhares de comentários e transcrições foram coletados de redes sociais e arquivos governamentais. A equipe de pesquisa procurou termos específicos conhecidos por serem usados como apitos de cachorro. Cada instância foi cuidadosamente anotada com detalhes adicionais, como o contexto em que o termo foi usado, pra garantir que os pesquisadores pudessem interpretar os significados de forma precisa.

Experimentando com LLMs

Uma vez que o conjunto de dados foi compilado, vários LLMs foram testados pra medir sua eficácia em detectar e explicar apitos de cachorro. Isso envolveu pedir aos modelos que analisassem frases e identificassem se continham apitos de cachorro. Os modelos foram avaliados com base na capacidade de identificar e definir corretamente as frases que encontraram.

Desempenho dos Modelos

Os resultados dos testes com diferentes modelos mostraram graus variados de sucesso. Alguns modelos, como o GPT-4, se saíram bem em identificar apitos de cachorro, enquanto outros tiveram dificuldades. A pesquisa destacou que, embora os LLMs possam ser úteis pra certas tarefas, eles ainda não são totalmente confiáveis e precisam de mais desenvolvimento pra melhorar sua precisão na detecção de linguagem codificada mais sutil.

Entendendo a Evolução dos Apitos de Cachorro

À medida que a linguagem continua a evoluir, os significados dos apitos de cachorro também podem mudar. Novas frases podem surgir que servem aos mesmos propósitos discriminatórios, enquanto termos mais antigos podem perder sua potência ou ser redefinidos. Essa adaptabilidade torna o estudo dos apitos de cachorro um processo dinâmico, já que os pesquisadores precisam se manter atualizados sobre as tendências atuais no uso da linguagem pra identificar e analisar efetivamente novas formas de discurso codificado.

O Papel da Intenção nos Apitos de Cachorro

Outro aspecto essencial dessa pesquisa é a noção de intenção. Quando um termo é usado, ele pode carregar um significado prejudicial, mas a intenção do falante pode variar. Algumas pessoas podem usar certas frases sem estarem cientes de seus significados mais profundos, enquanto outras podem escolher apitos de cachorro de forma intencional pra transmitir discriminação. Distinguir entre uso intencional e não intencional é importante pra analisar com precisão o impacto e as implicações dessas frases.

Utilizando o Conjunto de Dados

O conjunto de dados Silent Signals serve como uma ferramenta valiosa pra estudos futuros sobre apitos de cachorro e suas implicações. Pesquisadores podem usá-lo pra rastrear mudanças na linguagem, analisar o impacto de eventos políticos e sociais no discurso e estudar a eficácia dos atuais sistemas de detecção de discurso de ódio.

Significado da Pesquisa

Os esforços pra categorizar e entender apitos de cachorro representam um passo importante na luta contra o discurso de ódio e a discriminação. Ao empregar tecnologias avançadas como LLMs e construir conjuntos de dados abrangentes, os pesquisadores podem discernir melhor a linguagem sutil, mas prejudicial, que muitas vezes passa despercebida. Essa pesquisa tem potencial pra melhorar os sistemas de moderação de linguagem e informar o discurso público.

O Futuro da Pesquisa sobre Apitos de Cachorro

À medida que a sociedade continua lidando com questões de ódio, discriminação e manipulação política, o estudo dos apitos de cachorro continuará sendo crucial. Pesquisas futuras podem expandir os métodos de detecção de linguagem codificada, refinar conjuntos de dados pra incluir frases emergentes e explorar as implicações socioculturais do uso da linguagem ao longo do tempo.

Conclusão

A investigação sobre apitos de cachorro destaca a importância da clareza e intenção na linguagem. Embora o conjunto de dados Silent Signals ofereça uma base sólida pra estudar essas mensagens encobertas, esforços contínuos serão necessários pra acompanhar a natureza evolutiva da comunicação. Ao aproveitar a tecnologia moderna e métodos analíticos rigorosos, podemos trabalhar em direção a uma compreensão mais profunda dos significados ocultos dentro da nossa linguagem e seu impacto na sociedade.

Fonte original

Título: Silent Signals, Loud Impact: LLMs for Word-Sense Disambiguation of Coded Dog Whistles

Resumo: A dog whistle is a form of coded communication that carries a secondary meaning to specific audiences and is often weaponized for racial and socioeconomic discrimination. Dog whistling historically originated from United States politics, but in recent years has taken root in social media as a means of evading hate speech detection systems and maintaining plausible deniability. In this paper, we present an approach for word-sense disambiguation of dog whistles from standard speech using Large Language Models (LLMs), and leverage this technique to create a dataset of 16,550 high-confidence coded examples of dog whistles used in formal and informal communication. Silent Signals is the largest dataset of disambiguated dog whistle usage, created for applications in hate speech detection, neology, and political science. The dataset can be found at https://huggingface.co/datasets/SALT-NLP/silent_signals.

Autores: Julia Kruk, Michela Marchini, Rijul Magu, Caleb Ziems, David Muchlinski, Diyi Yang

Última atualização: 2024-06-18 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.06840

Fonte PDF: https://arxiv.org/pdf/2406.06840

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes