Formalidade em Modelos de Linguagem Multilíngues
Um estudo sobre como modelos de linguagem lidam com a formalidade em cinco idiomas.
― 6 min ler
Índice
Modelos de linguagem são ferramentas que conseguem entender e gerar linguagem humana. Recentemente, tem rolado um interesse crescente em modelos que funcionam em várias línguas. Esses modelos multilíngues podem produzir texto em diferentes idiomas, transferindo conhecimento de línguas mais ricas, com mais dados, para aquelas com menos. Contudo, ainda tem muita coisa desconhecida sobre como esses modelos se comportam em relação a fatores culturais, especialmente a Formalidade na língua.
Entendendo a Formalidade na Língua
Formalidade se refere a quão educado ou casual um texto ou fala é. O nível de formalidade pode mudar a forma como uma mensagem é recebida. Por exemplo, uma carta formal pode usar títulos corretos e frases completas, enquanto um texto informal pode usar gírias e contrações. Diferentes línguas têm jeitos únicos de expressar formalidade, frequentemente influenciados por normas culturais.
Neste artigo, vamos analisar como dois modelos de linguagem se comportam em relação à formalidade em cinco línguas: Árabe, Bengali, inglês, francês e espanhol.
O Papel dos Modelos de Linguagem
Modelos de linguagem são treinados em uma quantidade enorme de textos. Esse treinamento ajuda eles a aprenderem a gerar frases que fazem sentido no contexto de uma conversa ou escrita. À medida que aprendem, eles podem também desenvolver preconceitos baseados nos tipos de texto com que foram treinados. Isso pode levar eles a preferirem linguagem formal ou informal sem necessidade.
Analisando Dois Modelos de Linguagem
O foco vai ser em dois modelos de linguagem específicos. Um se chama XGLM e o outro é o BLOOM. Esses modelos foram treinados para produzir texto em várias línguas. Vamos examinar como eles respondem a pedidos com diferentes níveis de formalidade.
Como Funciona a Análise
Para analisar esses modelos, vamos gerar textos para cada modelo com base em tipos de pedido. Cada pedido será neutro, informal ou formal. Depois, vamos categorizar os textos gerados como formais, informais ou incoerentes (sem clareza ou Coesão). Isso nos permite ver como os modelos reagem a diferentes níveis de formalidade na geração de texto.
A Importância da Formalidade na Língua
Entender a formalidade na geração de linguagem é essencial para aplicações em várias áreas. Por exemplo, empresas querem chatbots que consigam ajustar o tom baseado na preferência do cliente. Da mesma forma, na tradução automática, o objetivo é preservar o tom desejado do texto original.
Formalidade em Diferentes Línguas
Árabe
O árabe é único por causa de suas várias dialetos. Tem o Árabe Padrão Moderno, que é formal, e muitos dialetos regionais que são mais casuais. Para nossa análise, definimos árabe formal como texto que não inclui palavras dos dialetos informais. Um exemplo de uma frase formal em árabe é "أين أقرب مسجد؟" (Onde fica a mesquita mais próxima?) usando apenas vocabulário do Árabe Padrão Moderno.
Bengali
No bengali, o nível de formalidade é frequentemente expresso através de pronomes. Existem diferentes formas de dizer "você" baseado no relacionamento com a pessoa que você está se dirigindo. Por exemplo, "Apni" é usado em situações formais, enquanto "Tumi" é mais informal. Textos com muitas palavras de origem sânscrita ou certas formas verbais podem ser vistos como mais formais.
Inglês
No inglês, a formalidade está frequentemente relacionada à escolha de palavras e estrutura das frases. Por exemplo, usar contrações como "I'm" em vez de "I am" faz o texto parecer mais casual. Podemos classificar inglês formal e informal procurando certos tipos de gramática e vocabulário.
Francês
O francês também tem diferentes níveis de formalidade, definidos por como as pessoas se dirigem umas às outras. O formal "vous" é usado com respeito, enquanto "tu" é mais casual. Na nossa análise, olhamos para textos formais que são adequados para contextos de negócios ou legais versus textos informais voltados para conversas casuais.
Espanhol
No espanhol, as distinções formais e informais são feitas através de pronomes. "Tú" é informal, enquanto "usted" é formal. A formalidade também é refletida em conjugações verbais e na estrutura geral das frases. O espanhol formal evita erros gramaticais e mantém coerência ao longo do texto.
Avaliando os Modelos
A análise envolveu gerar respostas de ambos XGLM e BLOOM com base em diferentes pedidos. Para cada língua, foram gerados 1.200 peças de texto. Esses textos foram então classificados por falantes nativos nas três categorias de formal, informal ou incoerente.
Coesão das Respostas
Um aspecto importante da geração de linguagem é a coesão. Textos coesos fazem sentido e são fáceis de entender. Os achados sugeriram que o BLOOM geralmente produzia textos mais coesos do que o XGLM em certas línguas, como inglês e francês. Contudo, modelos maiores nem sempre levavam a uma melhor coesão.
Viés de Formalidade
Olhamos como esses modelos responderam a pedidos neutros, onde esperaríamos um equilíbrio entre texto formal e informal. Surpreendentemente, os modelos mostraram um viés para gerar mais textos formais no geral. Por exemplo, em árabe, ambos os modelos geraram respostas significativamente formais quando receberam pedidos neutros.
Impacto dos Pedidos
Tanto XGLM quanto BLOOM reagiram de forma perceptível à formalidade dos pedidos. Por exemplo, quando receberam um pedido informal, os modelos tendiam a gerar saídas informais, especialmente evidente em árabe. Esse comportamento destacou a sensibilidade dos modelos ao contexto em que estavam operando.
Principais Descobertas
Comprimento do Texto
O BLOOM frequentemente produziu textos mais longos que o XGLM. Isso foi especialmente verdade para frases formais. Em contextos de conversa, o texto informal do BLOOM era mais curto, mas frequentemente continha mais pontuação e emojis em comparação com o texto formal.
Comportamento Específico da Língua
Cada língua mostrou tendências diferentes. Por exemplo, no bengali, o XGLM conseguiu preservar estilos informais melhor que o BLOOM. Em contraste, o BLOOM manteve estilos formais em árabe significativamente melhor que o XGLM.
Preservação Geral da Formalidade
Na maioria das línguas, os modelos tendiam a preservar o estilo de formalidade dos pedidos que receberam. Embora ambos os modelos tivessem dificuldades em manter estilos formais em inglês e francês, os estilos informais geralmente eram preservados bem.
Conclusão
Essa análise destacou a importância de entender a formalidade na geração de texto multilíngue. Tanto XGLM quanto BLOOM mostraram tendências a produzir texto formal quando solicitados de maneira neutra. No entanto, eles são bastante responsivos ao nível de formalidade especificado nos pedidos.
Futuras pesquisas podem construir sobre essas descobertas para melhorar como modelos multilíngues são treinados, garantindo que consigam se adaptar melhor às nuances linguísticas e culturais de seus usuários. Essa compreensão pode levar à criação de modelos melhor projetados para aplicações de chatbot, serviços de tradução e muito mais.
Focando na formalidade, podemos criar modelos de linguagem que atendam às diversas necessidades dos usuários ao redor do mundo.
Título: In What Languages are Generative Language Models the Most Formal? Analyzing Formality Distribution across Languages
Resumo: Multilingual generative language models (LMs) are increasingly fluent in a large variety of languages. Trained on the concatenation of corpora in multiple languages, they enable powerful transfer from high-resource languages to low-resource ones. However, it is still unknown what cultural biases are induced in the predictions of these models. In this work, we focus on one language property highly influenced by culture: formality. We analyze the formality distributions of XGLM and BLOOM's predictions, two popular generative multilingual language models, in 5 languages. We classify 1,200 generations per language as formal, informal, or incohesive and measure the impact of the prompt formality on the predictions. Overall, we observe a diversity of behaviors across the models and languages. For instance, XGLM generates informal text in Arabic and Bengali when conditioned with informal prompts, much more than BLOOM. In addition, even though both models are highly biased toward the formal style when prompted neutrally, we find that the models generate a significant amount of informal predictions even when prompted with formal text. We release with this work 6,000 annotated samples, paving the way for future work on the formality of generative multilingual LMs.
Autores: Asım Ersoy, Gerson Vizcarra, Tasmiah Tahsin Mayeesha, Benjamin Muller
Última atualização: 2023-02-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2302.12299
Fonte PDF: https://arxiv.org/pdf/2302.12299
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://github.com/asimokby/formality-bias-analysis
- https://huggingface.co/models
- https://corpus.rae.es/lfrecuencias.html
- https://www.pinhok.com/kb/bengali/98/100-basic-bengali-vocabularies/
- https://talkinarabic.com/arabic-words/
- https://en.wikipedia.org/wiki/Most_common_words_in_English
- https://strommeninc.com/1000-most-common-french-words-frequency-vocabulary/
- https://www.fatimafellowship.com/