Melhorando Modelos de Linguagem em Italiano para Contextos Legais e Burocráticos

Índice

Áreas de Foco do Estudo
Principais Descobertas
Implicações
O Desafio com Dados Limitados
Testando Modelos Menores
Entendendo o Desempenho do Modelo
Métodos Usados
Pesquisa Relevante
Mapeando Rótulos com Verbalizers
Calibração do Modelo
Configuração Experimental
Dados Usados
Abordagens para Classificação de Documentos
Métricas de Avaliação Usadas
Pontuação de Pseudo-Log-Likelihood
Resultados e Discussão
Resultados da Classificação de Documentos no Domínio PA
Resultados do Domínio Legal
Conclusão
Fonte original
Ligações de referência

Usar modelos de linguagem de forma eficaz geralmente depende de ter dados rotulados suficientes, especialmente em áreas específicas ou para idiomas que não têm muitos dados disponíveis. Enquanto muitos modelos grandes de linguagem são treinados principalmente com texto em inglês geral, falta bastante modelos para o italiano, principalmente quando se trata de termos legais e burocráticos. Este artigo fala sobre como podemos usar modelos menores e especializados, projetados para tarefas específicas, junto com técnicas como prompting para melhorar o desempenho nessas áreas.

Áreas de Foco do Estudo

Nossa pesquisa foca na linguagem usada em contextos burocráticos e legais italianos. Analisamos tanto modelos de linguagem gerais quanto aqueles que foram treinados especificamente em textos legais e burocráticos. Fizemos testes para ver como esses modelos se saem em tarefas, como classificar documentos e identificar entidades nomeadas. Também avaliamos suas habilidades usando um método chamado Pseudo-Log-Likelihood.

Principais Descobertas

Os resultados mostram que, embora alguns modelos projetados para serem gerais possam não ter um desempenho tão bom em tarefas especializadas, eles podem se adaptar melhor quando treinados mais a fundo em domínios específicos, mesmo em situações onde não há exemplos fornecidos antes. Além disso, ao aplicarmos técnicas para ajustar os modelos e utilizarmos rótulos de palavras específicas relacionados ao domínio, vimos um aumento significativo no desempenho. Esses modelos especializados são particularmente úteis em configurações onde há poucos dados ou expertise disponíveis.

Implicações

Nossas descobertas oferecem insights valiosos sobre como podemos utilizar modelos focados na língua italiana em áreas especializadas. Isso pode beneficiar bastante tanto a pesquisa quanto aplicações na indústria, especialmente à medida que a tecnologia continua a se mover em direção a soluções digitais.

O Desafio com Dados Limitados

Modelos de linguagem pré-treinados transformaram o campo do processamento de linguagem natural. No entanto, um grande desafio é a falta de dados rotulados, especialmente para tópicos especializados ou idiomas menos comuns. Esses dados são essenciais para ajustar modelos para realizar tarefas como classificação de forma eficaz. Recentemente, métodos que dependem de prompts surgiram como uma opção promissora, reduzindo significativamente a necessidade de dados anotados.

Testando Modelos Menores

Neste estudo, avaliamos dois modelos menores focados em áreas específicas: BureauBERTo, que foi treinado em textos burocráticos, e Ita-Legal-BERT, voltado para linguagem legal. Testamos ambos em várias tarefas usando uma técnica de prompting sem ter dados de treinamento específicos. Também verificamos como esses modelos se comparam a um modelo italiano mais genérico, o UmBERTo.

Entendendo o Desempenho do Modelo

BureauBERTo teve um desempenho particularmente bom em tarefas onde teve que preencher palavras faltantes em contextos burocráticos. Isso nos levou a examinar qual conhecimento específico esse modelo adquiriu através de seu treinamento. Queríamos usar esse conhecimento para realizar duas tarefas principais no campo da Administração Pública: determinar os tópicos dos textos e identificar entidades nomeadas específicas em frases de documentos administrativos.

Métodos Usados

Para realizar nossas tarefas, transformamos o problema de classificação original em um formato diferente. Nesse arranjo, o modelo avalia cada classe estimando quão provável é que uma palavra se encaixe em uma parte específica do prompt. Essa parte do processo é conhecida como verbalizer.

Fizemos vários experimentos usando três tipos de verbalizers. O primeiro foi um verbalizer básico, o segundo foi criado manualmente e o terceiro foi gerado automaticamente por cada modelo. Nosso objetivo era ver como a escolha de palavras relacionadas ao domínio impactava o desempenho em diferentes tarefas.

Para abordar como os modelos eram sensíveis a variações em prompts e rótulos de palavras, usamos duas técnicas de calibração. Também medimos as pontuações de Pseudo-Log-Likelihood para todos os modelos, o que nos ajudou a avaliar sua capacidade de lidar com a linguagem tanto nos domínios de PA quanto legal.

Pesquisa Relevante

Estudos recentes mostraram que modelos de linguagem pré-treinados podem ser eficazes em tarefas de domínios especializados, seja treinados do zero ou pré-treinados em dados relevantes. Um dos primeiros estudos destacou o potencial do aprendizado zero-shot usando modelos sem re-treiná-los em conjuntos de dados específicos. Outros trabalhos conseguiram desempenho competitivo usando modelos menores, demonstrando que técnicas baseadas em prompt podem ser benéficas.

No entanto, vale a pena notar que a eficácia do aprendizado por prompt geralmente escala com o tamanho do modelo. Normalmente, os pesquisadores usam modelos maiores que têm bilhões de parâmetros mesmo para tarefas especializadas. Em contraste, modelos menores especializados, como o BioBERT para a área médica, mostraram ter um desempenho melhor que seus equivalentes maiores em tarefas específicas.

Mapeando Rótulos com Verbalizers

Para realizar classificação baseada em prompt usando modelos apenas de codificadores, precisávamos criar um formato específico que reformulasse a tarefa de classificação. Alimentamos o modelo com texto seguido de um prompt que indicava o que queríamos classificar. O mapeamento de palavras de rótulo potenciais para nomes de classes é estabelecido através do verbalizer, que conecta cada classe a palavras específicas.

Escolher o verbalizer certo pode influenciar muito o desempenho do modelo. Normalmente, verbalizers são construídos manualmente ligando cada classe a uma ou algumas palavras que capturam a essência da classe. No entanto, encontrar essas palavras pode ser complicado porque a probabilidade das palavras escolhidas serem a escolha correta dentro do prompt afeta diretamente a precisão do modelo.

Para reduzir o tempo gasto criando verbalizers manualmente, outra estratégia é criar automaticamente esses mapeamentos de rótulos usando um pequeno conjunto de dados de treinamento. Apesar disso, verbalizers produzidos automaticamente muitas vezes ficam aquém dos criados manualmente, especialmente em cenários de zero-shot.

Calibração do Modelo

Um desafio significativo nos métodos baseados em prompt é sua sensibilidade a mudanças nos formatos de prompt e rótulos de palavras. Essa sensibilidade se torna especialmente evidente quando modelos aprendem a enfrentar uma tarefa com base em prompts projetados por humanos, sem precisar de atualizações em seus parâmetros internos.

Problemas como "viés de recência", onde modelos favorecem respostas que aparecem mais tarde nos prompts, e "viés de rótulo majoritário", onde ocorre um desequilíbrio de classes, podem levar a resultados instáveis. Para aliviar esses viéses, várias estratégias de calibração foram propostas.

A calibração contextual (CC) envolve fornecer aos modelos entradas sem conteúdo para avaliar seus viéses em relação às classes. Idealmente, isso resultaria no modelo tratando todas as classes igualmente. Na prática, os viéses fazem com que o modelo frequentemente favoreça classes específicas. Os parâmetros de calibração derivados desse processo podem ajudar a criar uma distribuição mais equilibrada entre classes.

A calibração em lote (BC) adota uma abordagem baseada em contexto, usando exemplos reais do conjunto de dados para fornecer uma calibração mais precisa. Esse método pode ajudar a estabilizar resultados e melhorar o desempenho em tarefas.

Configuração Experimental

Usamos uma estrutura de código aberto para realizar nossos experimentos, o que nos permitiu testar diferentes verbalizers e métodos de calibração de forma conveniente. Para nossos testes, comparamos o desempenho de três modelos de codificadores: UmBERTo, Ita-Legal-BERT e BureauBERTo.

UmBERTo é baseado no RoBERTa e foi treinado na seção italiana de um grande corpus. Ita-Legal-BERT foi treinado ainda mais em documentos legais do arquivo nacional e mostrou resultados promissores em tarefas específicas. BureauBERTo é uma versão adaptada do UmBERTo treinada em textos burocráticos e administrativos.

Dados Usados

Para nossos experimentos, dividimos nossas tarefas em duas categorias principais: Administração Pública (PA) e documentos legais. Utilizamos quatro conjuntos de dados: dois para cada categoria focando em tarefas de classificação. Para os documentos de PA, usamos um subconjunto de textos administrativos rotulados por tópico e outro conjunto para identificação de entidades com anotações detalhadas em nível de token.

Para o domínio legal, utilizamos documentos de julgamentos civis, que incluíam seções distintas, como o assunto do julgamento e o histórico fático. Para focar nas informações principais, só alimentamos os modelos com as seções mais informativas desses textos.

Abordagens para Classificação de Documentos

Estruturamos nossas tarefas de classificação de documentos alimentando os modelos com declarações de prompts que os ajudariam a identificar os tópicos dos documentos. Para os documentos legais, fornecemos as seções mais informativas para ajudar na classificação precisa.

Métricas de Avaliação Usadas

Para medir o desempenho do modelo, usamos métricas comumente adotadas, como Precisão, Recall e F1-Score. Ao examinar essas métricas, pudemos avaliar o quão bem cada modelo se saiu em várias tarefas e condições.

Pontuação de Pseudo-Log-Likelihood

Usamos pontuações de Pseudo-Log-Likelihood (PLL) para avaliar a competência linguística de cada modelo em diferentes conjuntos de dados. Entender como bem os modelos podem lidar com textos específicos de certos domínios é crucial, particularmente quando são testados sem ajuste fino e dependem apenas do que aprenderam durante o treinamento inicial.

No geral, comparamos as pontuações PLL dos modelos treinados em dados específicos do domínio com as pontuações de conjuntos de dados genéricos. Apesar de alguns modelos serem rotulados como gerais, descobrimos que o treinamento de modelos em dados direcionados ajudou eles a entender melhor a linguagem usada em contextos específicos.

Resultados e Discussão

Ao analisar os resultados da tarefa de tipagem de entidades dentro do domínio da Administração Pública, descobrimos que o modelo genérico, UmBERTo, geralmente superou os modelos especializados na maioria das situações. No entanto, ao usar verbalizers que envolviam uma terminologia mais específica do domínio, BureauBERTo viu um aumento significativo em sua capacidade preditiva.

Resultados da Classificação de Documentos no Domínio PA

Ao rodar testes de classificação com o verbalizer base, os modelos tendiam a mostrar pontuações médias de Macro Avg F1 mais baixas sem calibração. No entanto, o uso de verbalizers manuais, que incluíam termos adicionais relevantes ao domínio, resultou em melhorias marcantes no desempenho de todos os modelos.

Resultados do Domínio Legal

Nos testes no domínio legal, a mesma tendência foi observada, com UmBERTo novamente superando os modelos especializados em alguns casos. No entanto, em condições onde o verbalizer conhecedor foi aplicado junto com a calibração em lote, o modelo BureauBERTo apresentou desempenho superior em relação às classificações.

Conclusão

Nossa pesquisa mostra que modelos menores e especializados podem ser usados de maneira eficaz para tarefas de classificação nos domínios de Administração Pública e legal italianos, especialmente quando estabilizados por técnicas de calibração. Tanto modelos especializados quanto de uso geral têm forças que podem se destacar dependendo das tarefas e condições aplicadas.

Os achados indicam que, com verbalizers e métodos de calibração apropriados, os modelos podem ter um bom desempenho mesmo em situações de zero-shot, ou seja, podem lidar com tarefas sem ter visto exemplos anteriores. À medida que avançamos, a exploração de modelos especializados e suas capacidades em contextos onde dados rotulados são escassos será valiosa.

Melhorando Modelos de Linguagem em Italiano para Contextos Legais e Burocráticos

Esse estudo analisa métodos pra melhorar modelos de linguagem em italiano em áreas especializadas.

Áreas de Foco do Estudo

Principais Descobertas

Implicações

O Desafio com Dados Limitados

Testando Modelos Menores

Entendendo o Desempenho do Modelo

Métodos Usados

Pesquisa Relevante

Mapeando Rótulos com Verbalizers

Calibração do Modelo

Configuração Experimental

Dados Usados

Abordagens para Classificação de Documentos

Métricas de Avaliação Usadas

Pontuação de Pseudo-Log-Likelihood

Resultados e Discussão

Resultados da Classificação de Documentos no Domínio PA

Resultados do Domínio Legal

Conclusão

Ligações de referência

Tópicos referenciados

Melhorando Modelos de Linguagem em Italiano para Contextos Legais e Burocráticos

Esse estudo analisa métodos pra melhorar modelos de linguagem em italiano em áreas especializadas.

#Áreas de Foco do Estudo

#Principais Descobertas

#Implicações

#O Desafio com Dados Limitados

#Testando Modelos Menores

#Entendendo o Desempenho do Modelo

#Métodos Usados

#Pesquisa Relevante

#Mapeando Rótulos com Verbalizers

#Calibração do Modelo

#Configuração Experimental

#Dados Usados

#Abordagens para Classificação de Documentos

#Métricas de Avaliação Usadas

#Pontuação de Pseudo-Log-Likelihood

#Resultados e Discussão

#Resultados da Classificação de Documentos no Domínio PA

#Resultados do Domínio Legal

#Conclusão

Ligações de referência

Tópicos referenciados

Áreas de Foco do Estudo

Principais Descobertas

Implicações

O Desafio com Dados Limitados

Testando Modelos Menores

Entendendo o Desempenho do Modelo

Métodos Usados

Pesquisa Relevante

Mapeando Rótulos com Verbalizers

Calibração do Modelo

Configuração Experimental

Dados Usados

Abordagens para Classificação de Documentos

Métricas de Avaliação Usadas

Pontuação de Pseudo-Log-Likelihood

Resultados e Discussão

Resultados da Classificação de Documentos no Domínio PA

Resultados do Domínio Legal

Conclusão