Melhorando Modelos de Linguagem em Italiano para Contextos Legais e Burocráticos
Esse estudo analisa métodos pra melhorar modelos de linguagem em italiano em áreas especializadas.
― 10 min ler
Índice
- Áreas de Foco do Estudo
- Principais Descobertas
- Implicações
- O Desafio com Dados Limitados
- Testando Modelos Menores
- Entendendo o Desempenho do Modelo
- Métodos Usados
- Pesquisa Relevante
- Mapeando Rótulos com Verbalizers
- Calibração do Modelo
- Configuração Experimental
- Dados Usados
- Abordagens para Classificação de Documentos
- Métricas de Avaliação Usadas
- Pontuação de Pseudo-Log-Likelihood
- Resultados e Discussão
- Resultados da Classificação de Documentos no Domínio PA
- Resultados do Domínio Legal
- Conclusão
- Fonte original
- Ligações de referência
Usar modelos de linguagem de forma eficaz geralmente depende de ter dados rotulados suficientes, especialmente em áreas específicas ou para idiomas que não têm muitos dados disponíveis. Enquanto muitos modelos grandes de linguagem são treinados principalmente com texto em inglês geral, falta bastante modelos para o italiano, principalmente quando se trata de termos legais e burocráticos. Este artigo fala sobre como podemos usar modelos menores e especializados, projetados para tarefas específicas, junto com técnicas como prompting para melhorar o desempenho nessas áreas.
Áreas de Foco do Estudo
Nossa pesquisa foca na linguagem usada em contextos burocráticos e legais italianos. Analisamos tanto modelos de linguagem gerais quanto aqueles que foram treinados especificamente em textos legais e burocráticos. Fizemos testes para ver como esses modelos se saem em tarefas, como classificar documentos e identificar entidades nomeadas. Também avaliamos suas habilidades usando um método chamado Pseudo-Log-Likelihood.
Principais Descobertas
Os resultados mostram que, embora alguns modelos projetados para serem gerais possam não ter um desempenho tão bom em tarefas especializadas, eles podem se adaptar melhor quando treinados mais a fundo em domínios específicos, mesmo em situações onde não há exemplos fornecidos antes. Além disso, ao aplicarmos técnicas para ajustar os modelos e utilizarmos rótulos de palavras específicas relacionados ao domínio, vimos um aumento significativo no desempenho. Esses modelos especializados são particularmente úteis em configurações onde há poucos dados ou expertise disponíveis.
Implicações
Nossas descobertas oferecem insights valiosos sobre como podemos utilizar modelos focados na língua italiana em áreas especializadas. Isso pode beneficiar bastante tanto a pesquisa quanto aplicações na indústria, especialmente à medida que a tecnologia continua a se mover em direção a soluções digitais.
O Desafio com Dados Limitados
Modelos de linguagem pré-treinados transformaram o campo do processamento de linguagem natural. No entanto, um grande desafio é a falta de dados rotulados, especialmente para tópicos especializados ou idiomas menos comuns. Esses dados são essenciais para ajustar modelos para realizar tarefas como classificação de forma eficaz. Recentemente, métodos que dependem de prompts surgiram como uma opção promissora, reduzindo significativamente a necessidade de dados anotados.
Testando Modelos Menores
Neste estudo, avaliamos dois modelos menores focados em áreas específicas: BureauBERTo, que foi treinado em textos burocráticos, e Ita-Legal-BERT, voltado para linguagem legal. Testamos ambos em várias tarefas usando uma técnica de prompting sem ter dados de treinamento específicos. Também verificamos como esses modelos se comparam a um modelo italiano mais genérico, o UmBERTo.
Entendendo o Desempenho do Modelo
BureauBERTo teve um desempenho particularmente bom em tarefas onde teve que preencher palavras faltantes em contextos burocráticos. Isso nos levou a examinar qual conhecimento específico esse modelo adquiriu através de seu treinamento. Queríamos usar esse conhecimento para realizar duas tarefas principais no campo da Administração Pública: determinar os tópicos dos textos e identificar entidades nomeadas específicas em frases de documentos administrativos.
Métodos Usados
Para realizar nossas tarefas, transformamos o problema de classificação original em um formato diferente. Nesse arranjo, o modelo avalia cada classe estimando quão provável é que uma palavra se encaixe em uma parte específica do prompt. Essa parte do processo é conhecida como verbalizer.
Fizemos vários experimentos usando três tipos de verbalizers. O primeiro foi um verbalizer básico, o segundo foi criado manualmente e o terceiro foi gerado automaticamente por cada modelo. Nosso objetivo era ver como a escolha de palavras relacionadas ao domínio impactava o desempenho em diferentes tarefas.
Para abordar como os modelos eram sensíveis a variações em prompts e rótulos de palavras, usamos duas técnicas de calibração. Também medimos as pontuações de Pseudo-Log-Likelihood para todos os modelos, o que nos ajudou a avaliar sua capacidade de lidar com a linguagem tanto nos domínios de PA quanto legal.
Pesquisa Relevante
Estudos recentes mostraram que modelos de linguagem pré-treinados podem ser eficazes em tarefas de domínios especializados, seja treinados do zero ou pré-treinados em dados relevantes. Um dos primeiros estudos destacou o potencial do aprendizado zero-shot usando modelos sem re-treiná-los em conjuntos de dados específicos. Outros trabalhos conseguiram desempenho competitivo usando modelos menores, demonstrando que técnicas baseadas em prompt podem ser benéficas.
No entanto, vale a pena notar que a eficácia do aprendizado por prompt geralmente escala com o tamanho do modelo. Normalmente, os pesquisadores usam modelos maiores que têm bilhões de parâmetros mesmo para tarefas especializadas. Em contraste, modelos menores especializados, como o BioBERT para a área médica, mostraram ter um desempenho melhor que seus equivalentes maiores em tarefas específicas.
Mapeando Rótulos com Verbalizers
Para realizar classificação baseada em prompt usando modelos apenas de codificadores, precisávamos criar um formato específico que reformulasse a tarefa de classificação. Alimentamos o modelo com texto seguido de um prompt que indicava o que queríamos classificar. O mapeamento de palavras de rótulo potenciais para nomes de classes é estabelecido através do verbalizer, que conecta cada classe a palavras específicas.
Escolher o verbalizer certo pode influenciar muito o desempenho do modelo. Normalmente, verbalizers são construídos manualmente ligando cada classe a uma ou algumas palavras que capturam a essência da classe. No entanto, encontrar essas palavras pode ser complicado porque a probabilidade das palavras escolhidas serem a escolha correta dentro do prompt afeta diretamente a precisão do modelo.
Para reduzir o tempo gasto criando verbalizers manualmente, outra estratégia é criar automaticamente esses mapeamentos de rótulos usando um pequeno conjunto de dados de treinamento. Apesar disso, verbalizers produzidos automaticamente muitas vezes ficam aquém dos criados manualmente, especialmente em cenários de zero-shot.
Calibração do Modelo
Um desafio significativo nos métodos baseados em prompt é sua sensibilidade a mudanças nos formatos de prompt e rótulos de palavras. Essa sensibilidade se torna especialmente evidente quando modelos aprendem a enfrentar uma tarefa com base em prompts projetados por humanos, sem precisar de atualizações em seus parâmetros internos.
Problemas como "viés de recência", onde modelos favorecem respostas que aparecem mais tarde nos prompts, e "viés de rótulo majoritário", onde ocorre um desequilíbrio de classes, podem levar a resultados instáveis. Para aliviar esses viéses, várias estratégias de calibração foram propostas.
A calibração contextual (CC) envolve fornecer aos modelos entradas sem conteúdo para avaliar seus viéses em relação às classes. Idealmente, isso resultaria no modelo tratando todas as classes igualmente. Na prática, os viéses fazem com que o modelo frequentemente favoreça classes específicas. Os parâmetros de calibração derivados desse processo podem ajudar a criar uma distribuição mais equilibrada entre classes.
A calibração em lote (BC) adota uma abordagem baseada em contexto, usando exemplos reais do conjunto de dados para fornecer uma calibração mais precisa. Esse método pode ajudar a estabilizar resultados e melhorar o desempenho em tarefas.
Configuração Experimental
Usamos uma estrutura de código aberto para realizar nossos experimentos, o que nos permitiu testar diferentes verbalizers e métodos de calibração de forma conveniente. Para nossos testes, comparamos o desempenho de três modelos de codificadores: UmBERTo, Ita-Legal-BERT e BureauBERTo.
UmBERTo é baseado no RoBERTa e foi treinado na seção italiana de um grande corpus. Ita-Legal-BERT foi treinado ainda mais em documentos legais do arquivo nacional e mostrou resultados promissores em tarefas específicas. BureauBERTo é uma versão adaptada do UmBERTo treinada em textos burocráticos e administrativos.
Dados Usados
Para nossos experimentos, dividimos nossas tarefas em duas categorias principais: Administração Pública (PA) e documentos legais. Utilizamos quatro conjuntos de dados: dois para cada categoria focando em tarefas de classificação. Para os documentos de PA, usamos um subconjunto de textos administrativos rotulados por tópico e outro conjunto para identificação de entidades com anotações detalhadas em nível de token.
Para o domínio legal, utilizamos documentos de julgamentos civis, que incluíam seções distintas, como o assunto do julgamento e o histórico fático. Para focar nas informações principais, só alimentamos os modelos com as seções mais informativas desses textos.
Abordagens para Classificação de Documentos
Estruturamos nossas tarefas de classificação de documentos alimentando os modelos com declarações de prompts que os ajudariam a identificar os tópicos dos documentos. Para os documentos legais, fornecemos as seções mais informativas para ajudar na classificação precisa.
Métricas de Avaliação Usadas
Para medir o desempenho do modelo, usamos métricas comumente adotadas, como Precisão, Recall e F1-Score. Ao examinar essas métricas, pudemos avaliar o quão bem cada modelo se saiu em várias tarefas e condições.
Pontuação de Pseudo-Log-Likelihood
Usamos pontuações de Pseudo-Log-Likelihood (PLL) para avaliar a competência linguística de cada modelo em diferentes conjuntos de dados. Entender como bem os modelos podem lidar com textos específicos de certos domínios é crucial, particularmente quando são testados sem ajuste fino e dependem apenas do que aprenderam durante o treinamento inicial.
No geral, comparamos as pontuações PLL dos modelos treinados em dados específicos do domínio com as pontuações de conjuntos de dados genéricos. Apesar de alguns modelos serem rotulados como gerais, descobrimos que o treinamento de modelos em dados direcionados ajudou eles a entender melhor a linguagem usada em contextos específicos.
Resultados e Discussão
Ao analisar os resultados da tarefa de tipagem de entidades dentro do domínio da Administração Pública, descobrimos que o modelo genérico, UmBERTo, geralmente superou os modelos especializados na maioria das situações. No entanto, ao usar verbalizers que envolviam uma terminologia mais específica do domínio, BureauBERTo viu um aumento significativo em sua capacidade preditiva.
Resultados da Classificação de Documentos no Domínio PA
Ao rodar testes de classificação com o verbalizer base, os modelos tendiam a mostrar pontuações médias de Macro Avg F1 mais baixas sem calibração. No entanto, o uso de verbalizers manuais, que incluíam termos adicionais relevantes ao domínio, resultou em melhorias marcantes no desempenho de todos os modelos.
Resultados do Domínio Legal
Nos testes no domínio legal, a mesma tendência foi observada, com UmBERTo novamente superando os modelos especializados em alguns casos. No entanto, em condições onde o verbalizer conhecedor foi aplicado junto com a calibração em lote, o modelo BureauBERTo apresentou desempenho superior em relação às classificações.
Conclusão
Nossa pesquisa mostra que modelos menores e especializados podem ser usados de maneira eficaz para tarefas de classificação nos domínios de Administração Pública e legal italianos, especialmente quando estabilizados por técnicas de calibração. Tanto modelos especializados quanto de uso geral têm forças que podem se destacar dependendo das tarefas e condições aplicadas.
Os achados indicam que, com verbalizers e métodos de calibração apropriados, os modelos podem ter um bom desempenho mesmo em situações de zero-shot, ou seja, podem lidar com tarefas sem ter visto exemplos anteriores. À medida que avançamos, a exploração de modelos especializados e suas capacidades em contextos onde dados rotulados são escassos será valiosa.
Título: Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian
Resumo: Addressing the challenge of limited annotated data in specialized fields and low-resource languages is crucial for the effective use of Language Models (LMs). While most Large Language Models (LLMs) are trained on general-purpose English corpora, there is a notable gap in models specifically tailored for Italian, particularly for technical and bureaucratic jargon. This paper explores the feasibility of employing smaller, domain-specific encoder LMs alongside prompting techniques to enhance performance in these specialized contexts. Our study concentrates on the Italian bureaucratic and legal language, experimenting with both general-purpose and further pre-trained encoder-only models. We evaluated the models on downstream tasks such as document classification and entity typing and conducted intrinsic evaluations using Pseudo-Log-Likelihood. The results indicate that while further pre-trained models may show diminished robustness in general knowledge, they exhibit superior adaptability for domain-specific tasks, even in a zero-shot setting. Furthermore, the application of calibration techniques and in-domain verbalizers significantly enhances the efficacy of encoder models. These domain-specialized models prove to be particularly advantageous in scenarios where in-domain resources or expertise are scarce. In conclusion, our findings offer new insights into the use of Italian models in specialized contexts, which may have a significant impact on both research and industrial applications in the digital transformation era.
Autores: Serena Auriemma, Martina Miliani, Mauro Madeddu, Alessandro Bondielli, Lucia Passaro, Alessandro Lenci
Última atualização: 2024-07-30 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.20654
Fonte PDF: https://arxiv.org/pdf/2407.20654
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://huggingface.co/Musixmatch/umberto-commoncrawl-cased-v1
- https://relatedwords.org
- https://github.com/thunlp/OpenPrompt
- https://github.com/musixmatchresearch/umberto
- https://oscar-corpus.com
- https://huggingface.co/dlicari/Italian-Legal-BERT
- https://huggingface.co/dbmdz/bert-base-italian-xxl-cased
- https://huggingface.co/colinglab/BureauBERTo