Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Avaliando Modelos de Linguagem para o Português Brasileiro

Este estudo avalia o desempenho dos modelos de linguagem em tarefas de português brasileiro.

― 5 min ler


Modelos de Linguagem eModelos de Linguagem ePortuguês Brasileirotarefas linguísticas em português.Analisando o desempenho do modelo em
Índice

Esforços recentes na tecnologia de linguagem têm se concentrado em construir modelos de linguagem avançados que conseguem entender e gerar textos. Esses modelos, como o BERT, usam técnicas de aprendizado profundo pra processar e analisar a língua. Mas esses modelos costumam funcionar de maneiras que não são fáceis de explicar, o que dificulta saber como eles chegam a conclusões ou previsões. Essa falta de transparência pode ser um problema, especialmente quando tentamos aplicar esses modelos em tarefas específicas ou comparar modelos diferentes.

Nesse contexto, a gente investigou como os modelos de linguagem se saem em Português brasileiro, focando na habilidade deles de lidar com diferentes aspectos da língua, como gramática e expressões multiword (MWEs). Expressões multiword são frases que não seguem as regras usuais de composição, ou seja, o significado delas não pode ser facilmente inferido só olhando pras palavras individuais. Por exemplo, o termo "pão duro" é um bom exemplo, já que o significado não tá diretamente relacionado às palavras "pão" e "duro".

Pra avaliar como esses modelos de linguagem lidam com o português brasileiro, criamos um conjunto de dados especial pra testar. Esse conjunto tá dividido em duas seções principais: uma pra expressões multiword e outra pra Estruturas Gramaticais. A parte gramatical inclui seis tipos diferentes de testes, focando em aspectos como concordância verbal, concordância de sujeito e conectores.

Criando o Conjunto de Dados

A gente compilou uma série de frases pras nossas tarefas que cada uma continha uma palavra faltando, enquanto também dava um contexto pra ajudar a restringir as opções. Pra parte de MWE dos nossos testes, escolhemos 33 expressões idiomáticas e criamos cinco frases de contexto pra cada expressão. Isso resultou em um total de 165 frases pra teste. A ideia era ver se os modelos conseguiam identificar corretamente a palavra que faltava quando tinham um contexto relevante.

Pros nossos testes gramaticais, olhamos pra estruturas de frases específicas e selecionamos frases que foram desenhadas pra testar várias regras gramaticais. Incluímos estruturas comuns como verbos impersonais (verbos que não têm sujeito) e maneiras que substantivos e adjetivos devem concordar em gênero e número. Os testes foram estruturados de forma que o modelo tivesse que preencher a palavra que faltava com base no contexto fornecido.

Avaliando os Modelos

Testamos vários modelos conhecidos, incluindo duas versões do BERT que foram especificamente treinadas em português brasileiro. A gente queria ver como esses modelos conseguiam prever as palavras que faltavam tanto nos testes de MWE quanto nos testes gramaticais.

Nos testes de MWE, descobrimos que o modelo maior se saiu melhor que a versão menor, mas ambos tiveram dificuldades em prever corretamente as expressões multiword em comparação com seu desempenho geral. As melhores previsões do modelo maior foram precisas apenas cerca de 52% das vezes quando consideramos só a melhor escolha, embora a precisão melhorasse pra cerca de 66% quando consideramos as dez melhores suposições.

Os testes gramaticais mostraram resultados mistos. Tarefas que não envolvem concordância, como o uso de conectores, tiveram altas taxas de precisão, enquanto tarefas que exigiam concordância, como a concordância verbal e nominal, mostraram resultados menos impressionantes. Por exemplo, o modelo teve um desempenho quase perfeito em testes de verbos impersonais, enquanto encarou desafios em tarefas que exigiam que substantivos e adjetivos concordassem em gênero e número.

Descobertas e Insights

Com nossas avaliações, notamos que, embora os modelos mostrassem proficiência em muitas áreas, havia fraquezas notáveis, especialmente em tarefas que exigiam uma boa compreensão da estrutura da linguagem e da concordância. Por exemplo, os modelos se saíram mal ao lidar com certos pronomes pessoais e quando estruturas gramaticais mais complexas estavam envolvidas.

A diferença de desempenho entre os dois modelos sugere que modelos maiores e mais especializados tendem a se sair melhor, embora o menor não estivesse sem seus méritos. Os resultados também apontaram uma tendência dos modelos de terem mais confiança em respostas incorretas, o que indica uma necessidade de melhorar os processos de treinamento e avaliação deles.

Indo em Frente

Olhando pra frente, a gente pretende continuar refinando nossa abordagem de teste dos modelos de linguagem. Vamos expandir nossos testes pra incluir mais aspectos da língua, como a forma como os verbos são usados em contexto e as frases comuns encontradas em conversas do dia a dia. Também queremos explorar como os preconceitos nos dados de treinamento podem afetar o desempenho dos modelos.

No final das contas, nosso objetivo é fornecer avaliações mais claras dos modelos de linguagem e melhorar a capacidade deles de processar e gerar português brasileiro de forma precisa. Ao desenvolver um conjunto de dados abrangente e seguir procedimentos de avaliação padronizados, a gente espera avançar a compreensão e o uso da tecnologia de linguagem em diversas aplicações.

Fonte original

Título: Assessing Linguistic Generalisation in Language Models: A Dataset for Brazilian Portuguese

Resumo: Much recent effort has been devoted to creating large-scale language models. Nowadays, the most prominent approaches are based on deep neural networks, such as BERT. However, they lack transparency and interpretability, and are often seen as black boxes. This affects not only their applicability in downstream tasks but also the comparability of different architectures or even of the same model trained using different corpora or hyperparameters. In this paper, we propose a set of intrinsic evaluation tasks that inspect the linguistic information encoded in models developed for Brazilian Portuguese. These tasks are designed to evaluate how different language models generalise information related to grammatical structures and multiword expressions (MWEs), thus allowing for an assessment of whether the model has learned different linguistic phenomena. The dataset that was developed for these tasks is composed of a series of sentences with a single masked word and a cue phrase that helps in narrowing down the context. This dataset is divided into MWEs and grammatical structures, and the latter is subdivided into 6 tasks: impersonal verbs, subject agreement, verb agreement, nominal agreement, passive and connectors. The subset for MWEs was used to test BERTimbau Large, BERTimbau Base and mBERT. For the grammatical structures, we used only BERTimbau Large, because it yielded the best results in the MWE task.

Autores: Rodrigo Wilkens, Leonardo Zilio, Aline Villavicencio

Última atualização: 2023-06-07 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.14070

Fonte PDF: https://arxiv.org/pdf/2305.14070

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes