Avaliando Modelos de Linguagem de Código Aberto vs Código Fechado em Tarefas de Classificação
Esse artigo analisa o desempenho de vários modelos de linguagem em tarefas importantes de PNL.
― 12 min ler
Índice
- Modelos de Linguagem na Classificação
- Perguntas sobre Modelos de Linguagem Grandes
- Tipos de Modelos Comparados
- Principais Descobertas
- A Evolução da Classificação de Texto
- Desafios com Modelos de Linguagem Grandes
- Reconhecimento de Entidades Nomeadas
- Previsão de Ideologia Política
- Detecção de Desinformação
- Limitações dos Modelos Fechados
- Visão Geral dos Experimentais
- Observações de Desempenho
- A Complexidade das Previsões Políticas
- Desafios na Detecção de Desinformação
- Análise de Custos dos Modelos
- Conclusões
- Materiais Suplementares
- Pensamentos Finais
- Fonte original
- Ligações de referência
Melhorias recentes em modelos de linguagem grandes (LLMs) mostraram habilidades impressionantes em várias tarefas de processamento de linguagem natural (NLP). No entanto, ainda há muitas perguntas sobre esses modelos. Modelos de código aberto funcionam tão bem quanto os fechados? Por que alguns modelos se saem bem em certas tarefas enquanto outros não? Quais métodos podem melhorar seu desempenho? Este artigo aborda essas questões na área de classificação, avaliando diferentes tipos de modelos em várias tarefas: Reconhecimento de Entidades Nomeadas (NER), previsão de afiliação a partidos políticos e Detecção de desinformação.
Modelos de Linguagem na Classificação
Modelos maiores geralmente melhoram o desempenho, mas modelos de código aberto podem competir com os fechados quando ajustados. Modelos menores supervisionados, como o RoBERTa, podem ter desempenho igual ou melhor em muitos conjuntos de dados em comparação com LLMs generativos como o GPT-4. No entanto, modelos fechados tendem a ter uma vantagem em tarefas mais exigentes que requerem uma generalização mais ampla. A escolha do modelo deve depender das necessidades específicas da tarefa em questão.
Perguntas sobre Modelos de Linguagem Grandes
Muitos pesquisadores se concentraram no desempenho de LLMs fechados como o GPT-3.5 e o GPT-4. Esses modelos mostram ótimos resultados em tarefas como prever a afiliação política a partir de dados de redes sociais e detectar desinformação. Infelizmente, há pouca pesquisa sobre como modelos de código aberto se saem nessas tarefas. Este artigo investiga se esses modelos podem igualar o desempenho dos fechados e quais estratégias podem ajudar a melhorar seus resultados.
Tipos de Modelos Comparados
Este estudo compara três tipos de modelos: GPT-3.5 e GPT-4 (LLMs generativos fechados), Llama 2 (LLMs generativos de código aberto) e RoBERTa (um modelo menor e não gerativo). Analisamos como diferentes técnicas de prompt e ajuste afetam o desempenho de cada modelo.
Principais Descobertas
- Modelos menores em configurações supervisionadas podem igualar ou superar LLMs generativos mais caros.
- Um bom design de prompt e outras técnicas são essenciais para bons resultados de modelos generativos. Com oportunidades de ajuste fino, modelos de código aberto podem oferecer vantagens que não estão disponíveis com modelos fechados.
- Os maiores modelos fechados tendem a superar modelos menores nas tarefas mais difíceis que requerem alta generalização.
A Evolução da Classificação de Texto
A classificação de texto evoluiu muito, começando de abordagens baseadas em regras até chegar ao aprendizado de máquina clássico e agora a métodos de deep learning. Hoje, o NLP é dominado por modelos de transformadores. Modelos como o RoBERTa usam um método chamado modelagem de linguagem mascarada para prever palavras ocultas, enquanto modelos generativos como o GPT preveem a próxima palavra em uma sequência. Tarefas de classificação com RoBERTa envolvem pegar embeddings da última camada oculta e passá-los por uma camada linear.
Modelos generativos se destacam em entender a linguagem humana, especialmente depois de serem ajustados usando Reforço de Aprendizado com Feedback Humano (RLHF). Essa compreensão avançada levou ao surgimento da "engenharia de prompts", onde um design cuidadoso de prompts pode melhorar significativamente o desempenho do modelo. Apesar de alguns desafios, como mudanças sutis em prompts causando grandes diferenças nos resultados, houve esforços para alinhar esses modelos mais de perto com a compreensão humana.
Desafios com Modelos de Linguagem Grandes
Uma crítica aos LLMs é que treiná-los requer recursos massivos, dificultando a replicação por muitas empresas. A liberação de modelos como o Llama 2 para a comunidade de código aberto permite que pesquisadores estudem seu desempenho sem os altos custos de treinar modelos fechados. Embora modelos menores possam alcançar níveis de desempenho semelhantes aos de modelos mais caros, eles ainda têm pontos fracos em algumas áreas.
Alguns pesquisadores focaram em melhorar o desempenho em ambientes com poucos recursos. Técnicas como fp16, quantização de 8 bits e ajuste fino LoRA possibilitam reduções substanciais nas exigências computacionais ao ajustar modelos para tarefas específicas. Este estudo implementa ajuste fino LoRA para o Llama 2 na tarefa de NER.
Reconhecimento de Entidades Nomeadas
NER é uma tarefa chave em NLP, pois ajuda a converter texto não estruturado em dados organizados. Essa informação extraída melhora a compreensão em muitas aplicações e pode alimentar outros modelos, como Redes Neurais Gráficas.
A maioria dos métodos de NER atuais utiliza modelos de linguagem pré-treinados (PLMs) como o RoBERTa. Esses modelos pegam saídas contextuais de tokens e podem usar componentes como MLPs, BiLSTMs, CRFs e Pointers Globais para melhorar o desempenho da extração de entidades. Independentemente do método usado, um NER eficaz depende de conjuntos de dados bem anotados para um ajuste fino ideal.
Trabalhos recentes mostraram que o GPT-3.5 pode produzir resultados significativos para tarefas de NER quando solicitado a gerar entidades específicas. Eles podem até se sair bem em cenários de zero-shot e few-shot, onde os dados são limitados. Com base nessas informações, este estudo utiliza técnicas semelhantes em experimentos posteriores.
Previsão de Ideologia Política
Prever a ideologia política é uma tarefa essencial na análise de discursos partidários e polarização. Essa tarefa geralmente envolve prever o partido político ou a ideologia de usuários de redes sociais. Vários recursos, incluindo conteúdo textual e dados de rede, são considerados nesse processo.
Muitos estudos apresentam dados rotulados por humanos como o padrão ouro para essa tarefa. No entanto, descobertas recentes sugerem que o GPT-4 supera anotadores humanos na classificação de afiliações políticas com base em mensagens de redes sociais. Apesar desses resultados promissores, ainda existem várias perguntas que esta pesquisa aborda. Por exemplo, pesquisas anteriores mostraram que o comportamento político pode diferir entre políticos e o público em geral. Além disso, trabalhar com um sistema bipartidário pode ser diferente de lidar com uma situação multipartidária, aumentando a complexidade da tarefa.
Detecção de Desinformação
Desinformação é uma grande preocupação social, e pesquisadores têm dedicado tempo considerável para combatê-la. A detecção algorítmica muitas vezes enquadra esse problema como uma questão de classificação, rotulando informações como "Verdadeiro" ou "Falso". Embora muitas abordagens considerem fatores como informações de rede e perfis de usuários, o conteúdo textual continua sendo central para fazer previsões confiáveis.
Modelos tradicionais eram comuns, mas desde então foram ofuscados por modelos baseados em transformadores como o BERT, que oferecem desempenho superior na detecção de desinformação. Mais recentemente, modelos como o GPT-4 demonstraram vantagens ainda maiores, incluindo melhor generalização e quantificação de incerteza. No entanto, à medida que a desinformação continua a crescer rapidamente, a escalabilidade continua a ser um desafio para todos os modelos, especialmente os caros como o GPT-4.
Limitações dos Modelos Fechados
Modelos fechados como o GPT-3.5 e o GPT-4 apresentam um desempenho excepcional em várias tarefas de NLP, mas vêm com limitações. Geralmente acessados por meio de APIs, esses modelos aliviam as preocupações dos usuários sobre poder de processamento, mas também limitam o controle sobre dados de treinamento e versões de modelos. A falta de transparência em seus dados de treinamento torna difícil saber se o sucesso de um modelo decorre de suas habilidades de generalização ou vazamento de dados.
Reproduzir resultados de pesquisa com modelos fechados se mostra desafiador devido aos altos custos associados ao uso da API e possíveis flutuações de desempenho de atualizações não anunciadas. Além disso, as implicações éticas e o impacto ambiental do consumo de energia substancial necessário para treinar e executar esses modelos geram preocupações sobre práticas sustentáveis.
Visão Geral dos Experimentais
Nos nossos experimentos, comparamos o desempenho do Llama 2 contra GPT-3.5 e GPT-4, além de métodos de ponta. Ajustamos o RoBERTa para as tarefas de classificação. Especificamente, utilizamos modelos do Llama 2 hospedados no Hugging Face, enquanto usamos a API da OpenAI para acessar o GPT-3.5 e o GPT-4, que são otimizados para tarefas de conversa.
Comparação de Modelos
Os testes medem os melhores resultados ao solicitar modelos generativos em configurações de zero-shot e few-shot. Selecionamos apenas os conjuntos de dados mais exigentes para tarefas como NER e previsão implícita de partido político ao usar o GPT-4 para minimizar custos.
Observações de Desempenho
- Modelos Pequenos em Configurações Supervisionadas: Modelos menores podem frequentemente alcançar um desempenho semelhante ou melhor em comparação com modelos generativos.
- O Design do Prompt Importa: Prompts eficazes em cenários de zero-shot nem sempre se traduzem em desempenho semelhante em cenários de few-shot, mostrando a importância da engenharia de prompt.
- Modelos de Código Aberto Podem Competir: Ajustar o Llama 2 permitiu que ele superasse o GPT-3.5, embora ainda estivesse atrás de modelos menores como o RoBERTa em tarefas de generalização.
A Complexidade das Previsões Políticas
Quando analisamos as previsões feitas pelo GPT-3.5 e RoBERTa no conjunto de dados da Eleição Canadense, descobrimos que o RoBERTa teve um desempenho notavelmente melhor em certos casos. Para explorar isso mais a fundo, fizemos um cientista político analisar casos selecionados onde um modelo teve sucesso enquanto o outro falhou. As descobertas indicaram que a força do RoBERTa surgiu de sua capacidade de identificar padrões não semânticos nos dados, enquanto o GPT-3.5 utilizou uma abordagem mais contextual.
Desafios na Detecção de Desinformação
O RoBERTa mostrou resultados razoáveis quando ajustado no conjunto de dados LIAR, mas lutou significativamente com o CT-FAN-22. Essa discrepância apontou para a dificuldade aumentada de generalização decorrente das diversas fontes de dados no CT-FAN em comparação com o conjunto de dados mais uniforme LIAR. A rápida evolução da desinformação complica ainda mais as tarefas de detecção, exigindo modelos que possam lidar com variabilidade.
Análise de Custos dos Modelos
À medida que os LLMs crescem em tamanho, o considerável poder computacional necessário levanta preocupações sobre sustentabilidade ambiental e custo-efetividade. Nossa análise revela que o RoBERTa, sendo o menor modelo, tem o menor consumo de energia para treinamento e inferência. Para tarefas de classificação simples, o RoBERTa se destaca como a escolha preferida devido ao seu desempenho e benefícios de custo em comparação com modelos generativos maiores.
Conclusões
Nesta pesquisa, examinamos o desempenho de vários modelos de linguagem em tarefas de classificação relacionadas ao reconhecimento de entidades nomeadas, previsão de ideologia política e detecção de desinformação. Nossas descobertas ressaltam que modelos supervisionados menores frequentemente apresentam desempenho comparável, se não superior, aos modelos generativos. Além disso, esses modelos menores apresentam vantagens notáveis em custo, velocidade e transparência.
O design do prompt desempenha um papel vital no desempenho do modelo, já que demonstramos que estratégias eficazes em configurações de zero-shot nem sempre se aplicam a cenários de few-shot. Também mostramos que modelos de código aberto como o Llama 2 podem ainda superar modelos fechados como o GPT-3.5, destacando o valor dos esforços colaborativos na comunidade de código aberto.
Enquanto modelos supervisionados menores se destacam em tarefas com padrões claros, modelos generativos tendem a ter um desempenho melhor em tarefas que requerem ampla generalização. Esta pesquisa sublinha a necessidade de selecionar o modelo certo com base nas necessidades específicas de cada tarefa, nos recursos disponíveis e no nível desejado de generalização. As percepções obtidas a partir deste estudo podem abrir caminho para novos avanços em processamento de linguagem natural e melhorar a pesquisa colaborativa dentro da área.
Materiais Suplementares
Tarefa de NER
Para a avaliação de NER, executamos o modelo com uma simples etapa de pós-processamento para extrair entidades. Os conjuntos de dados usados foram reestruturados para se adaptarem a formatos de diálogo para os modelos otimizados para chat.
Previsão de Ideologia Política
Identificamos palavras-chave específicas para diferentes conjuntos de dados coletados através da API do Twitter para previsão de ideologia política. Ao ajustar modelos usando grandes conjuntos de dados de tweets, buscamos melhorar a precisão das previsões políticas de usuários de redes sociais.
Detecção de Desinformação
Para os experimentos de desinformação, prompts foram projetados para avaliar a veracidade das afirmações sem comentários adicionais. O processo de avaliação envolveu comparar o desempenho de vários modelos em conjuntos de dados padrão para identificar suas forças e limitações.
Pensamentos Finais
Esta análise abrangente de modelos de linguagem em tarefas de classificação destaca o potencial de modelos menores, ao mesmo tempo em que reconhece as capacidades avançadas de modelos generativos maiores. À medida que o campo do NLP continua a avançar, pesquisas em andamento podem refinar nossa compreensão desses sistemas e suas aplicações em cenários do mundo real.
Título: Open, Closed, or Small Language Models for Text Classification?
Resumo: Recent advancements in large language models have demonstrated remarkable capabilities across various NLP tasks. But many questions remain, including whether open-source models match closed ones, why these models excel or struggle with certain tasks, and what types of practical procedures can improve performance. We address these questions in the context of classification by evaluating three classes of models using eight datasets across three distinct tasks: named entity recognition, political party prediction, and misinformation detection. While larger LLMs often lead to improved performance, open-source models can rival their closed-source counterparts by fine-tuning. Moreover, supervised smaller models, like RoBERTa, can achieve similar or even greater performance in many datasets compared to generative LLMs. On the other hand, closed models maintain an advantage in hard tasks that demand the most generalizability. This study underscores the importance of model selection based on task requirements
Autores: Hao Yu, Zachary Yang, Kellin Pelrine, Jean Francois Godbout, Reihaneh Rabbany
Última atualização: 2023-08-19 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.10092
Fonte PDF: https://arxiv.org/pdf/2308.10092
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.