Sci Simple

New Science Research Articles Everyday

# Informática # Computação e linguagem # Inteligência Artificial

Preenchendo as Lacunas Linguísticas: Novo Padrão para as Variedades do Inglês

Uma nova referência classifica sentimentos e sarcasmo em inglês australiano, indiano e britânico.

Dipankar Srirag, Aditya Joshi, Jordan Painter, Diptesh Kanojia

― 7 min ler


Novo Padrão para Novo Padrão para Sentimento em Inglês em inglês. linguagem sobre as diversas expressões Melhorando a compreensão dos modelos de
Índice

Linguagem é uma coisa engraçada. Justo quando você acha que entende, alguém solta uma frase ou gíria que você nunca ouviu antes e, de repente, você se sente em um universo diferente. Esse fenômeno é especialmente verdadeiro para o inglês, que tem várias variações como o inglês australiano, indiano e britânico. Cada variação tem seu próprio jeito único de usar palavras, frases e até humor.

Agora, enquanto os grandes Modelos de linguagem (LLMs) facilitaram a compreensão e geração de linguagem, eles costumam ter dificuldade com essas variações. Eles tendem a ser treinados principalmente em formas padrão de inglês. Então, o que acontece quando esses modelos se deparam com gírias australianas ou piadas em inglês indiano? Spoiler: eles costumam interpretar errado.

Para ajudar a preencher essa lacuna, pesquisadores criaram um novo benchmark projetado especificamente para classificar Sentimentos (sentimentos positivos ou negativos) e sarcasmo (aquele tipo de humor onde você diz o oposto do que realmente quer dizer) em três variações de inglês. Eles coletaram Dados reais de avaliações do Google Places e comentários do Reddit, onde as pessoas expressam livremente seus pensamentos e sentimentos, às vezes com uma pitada de sarcasmo.

O Problema com os Modelos Existentes

A maioria dos modelos de linguagem se sai muito bem no inglês americano padrão, mas se enrola quando enfrenta variações como o inglês indiano ou australiano. A situação é meio parecida com um peixe fora d'água—chique em terra, mas uma bagunça no mar. Estudos anteriores mostraram que esses modelos podem exibir viés, tratando algumas variações como inferiores, o que pode levar a mal-entendidos ou até ofensas.

Os benchmarks existentes para classificação de sentimentos e sarcasmo focam principalmente em formas de linguagem padrão, perdendo as nuances que vêm com dialetos e variações regionais. Assim como um britânico adequado pode levantar uma sobrancelha para o "no worries mate" de um australiano, os LLMs também levantam uma sobrancelha digital quando se deparam com novas reviravoltas linguísticas.

O que há de Novo?

Em resposta a esse desafio, um novo benchmark foi lançado para classificar sentimentos e sarcasmo em três variações de inglês: australiano (en-AU), indiano (en-IN) e britânico (en-UK). Esse benchmark é um divisor de águas porque inclui dados coletados diretamente das pessoas que usam a linguagem.

Coleta de Dados

Os pesquisadores coletaram comentários de duas fontes principais: avaliações do Google Places e comentários do Reddit. Imagine todas aquelas opiniões sobre restaurantes, pontos turísticos e tudo mais! Depois, filtraram esses dados usando dois métodos:

  1. Filtragem Baseada em Localização: Esse método seleciona avaliações de cidades específicas nos três países. O objetivo aqui é garantir que as avaliações venham de pessoas familiarizadas com aquelas variações locais.

  2. Filtragem Baseada em Tópico: Aqui, eles escolheram subreddits populares relacionados a cada variação. Por exemplo, se estavam procurando inglês indiano, checariam subreddits como 'India' ou 'IndiaSpeaks'. Isso garante que os comentários reflitam os sabores locais da linguagem.

Uma vez que os dados foram coletados, uma equipe dedicada de falantes nativos anotou tudo, marcando se os sentimentos eram positivos, negativos ou se havia sarcasmo presente. Esse esforço manual ajuda a garantir que os dados realmente representem as variações de linguagem.

Avaliando Modelos de Linguagem

Depois que os dados foram compilados, os pesquisadores ajustaram nove diferentes LLMs com esses conjuntos de dados. Eles queriam ver como esses modelos poderiam classificar sentimentos e sarcasmo em cada variação. Os modelos incluíram uma mistura de arquiteturas de codificadores e decodificadores, cobrindo formatos monolíngues e multilingues.

Acontece que, como tentar malabarismo em cima de uma monociclo, esses modelos tiveram mais dificuldade com algumas variações do que com outras. Eles se saíram muito melhor nas variações do "círculo interno" (en-AU e en-UK) em comparação com a variação do "círculo externo" (en-IN). Por quê? Bem, as variações do círculo interno estão mais frequentemente representadas nos dados de treinamento, deixando os modelos menos familiarizados com as peculiaridades do en-IN.

Os Resultados

Classificação de Sentimentos

Na tarefa de classificação de sentimentos, os modelos mostraram um desempenho meio promissor no geral. O melhor modelo conseguiu uma média impressionante ao classificar sentimentos em todas as três variações. No entanto, o modelo que teve o pior desempenho nessa tarefa teve uma pontuação que só poderia ser comparada a uma criança que esqueceu a lição de casa—definitivamente nada impressionante.

Classificação de Sarcasmo

A classificação de sarcasmo, por outro lado, foi muito mais complicada para os modelos. Os modelos tiveram dificuldades significativas, mostrando que, enquanto os humanos conseguem identificar sarcasmo na conversa facilmente, as máquinas ainda ficam perdidas. As nuances humorísticas e referências culturais embutidas no sarcasmo muitas vezes se perdem nos LLMs, levando a baixas taxas de desempenho.

É irônico, não é? Um modelo projetado para entender a linguagem muitas vezes não consegue detectar quando alguém está zoando. É como um robô tentando apreciar um show de comédia stand-up—pode entender as palavras, mas perde totalmente as piadas.

Desempenho entre Variações

Quando avaliados entre variações, os modelos se saíram decentemente quando foram testados na mesma variação que foram treinados. No entanto, quando se tratou de trocar de variação, o desempenho caiu drasticamente. Os modelos treinados em en-AU ou en-UK tiveram um desempenho fraco ao avaliar en-IN, e vice-versa. Isso confirma que o sarcasmo é particularmente complicado quando você leva em conta diferentes contextos culturais.

Então, se você achou que treinar em uma variação prepararia um modelo para outra, pense de novo. É como treinar para uma maratona em uma cidade e esperar correr um triatlo em outra—boa sorte com isso!

Insights e Implicações

Esse benchmark não é apenas uma coleção de dados; serve como uma ferramenta para pesquisadores futuros que buscam criar LLMs mais justos e inclusivos. Ao destacar os viéses presentes nos modelos atuais, incentiva o desenvolvimento de novos métodos que podem levar a um melhor desempenho em formas de linguagem variadas.

Em um mundo que está mais conectado do que nunca, onde pessoas de diferentes culturas interagem diariamente, ser entendido (e entendido corretamente) é essencial. Seja uma britânica fazendo um comentário engraçado, um indiano soltando uma piada seca ou um australiano contando uma piada descontraída, essas nuances não devem se perder na tradução.

Direções Futuras

Com esse benchmark em prática, os pesquisadores agora podem melhorar as fraquezas dos atuais LLMs. Eles poderiam integrar melhor as variações de linguagem em seus regimes de treinamento, usando conjuntos de dados mais representativos. Afinal, está na hora dos modelos acompanharem as pessoas que usam a linguagem todos os dias.

Além disso, trabalhos futuros poderiam envolver a expansão contínua do conjunto de dados para incluir mais variações de linguagem, talvez até aquelas que são menos comuns. Isso poderia ajudar a garantir que a voz de todos seja ouvida—e entendida—independentemente de onde venham.

Conclusão

Em resumo, o novo benchmark para classificação de sentimentos e sarcasmo em diferentes variações de inglês tem um grande potencial. Ele destaca os viéses existentes nos LLMs enquanto abre caminho para modelos mais justos e inclusivos. Com humor e nuances culturais em foco, a esperança é chegar mais perto de um dia em que os modelos de linguagem possam realmente apreciar a profundidade e diversidade da comunicação humana.

Então, se você já sentiu que seus comentários inteligentes não colaram na tradução, fique tranquilo que os pesquisadores estão trabalhando duro para garantir que os modelos futuros não percam o ritmo—ou a piada!

Fonte original

Título: BESSTIE: A Benchmark for Sentiment and Sarcasm Classification for Varieties of English

Resumo: Despite large language models (LLMs) being known to exhibit bias against non-mainstream varieties, there are no known labeled datasets for sentiment analysis of English. To address this gap, we introduce BESSTIE, a benchmark for sentiment and sarcasm classification for three varieties of English: Australian (en-AU), Indian (en-IN), and British (en-UK). Using web-based content from two domains, namely, Google Place reviews and Reddit comments, we collect datasets for these language varieties using two methods: location-based and topic-based filtering. Native speakers of the language varieties manually annotate the datasets with sentiment and sarcasm labels. Subsequently, we fine-tune nine large language models (LLMs) (representing a range of encoder/decoder and mono/multilingual models) on these datasets, and evaluate their performance on the two tasks. Our results reveal that the models consistently perform better on inner-circle varieties (i.e., en-AU and en-UK), with significant performance drops for en-IN, particularly in sarcasm detection. We also report challenges in cross-variety generalisation, highlighting the need for language variety-specific datasets such as ours. BESSTIE promises to be a useful evaluative benchmark for future research in equitable LLMs, specifically in terms of language varieties. The BESSTIE datasets, code, and models are currently available on request, while the paper is under review. Please email [email protected].

Autores: Dipankar Srirag, Aditya Joshi, Jordan Painter, Diptesh Kanojia

Última atualização: 2024-12-05 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2412.04726

Fonte PDF: https://arxiv.org/pdf/2412.04726

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes