Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Aprendizagem de máquinas

Melhorando Modelos de Linguagem Grande com MRPO

Um novo método melhora o alinhamento de modelos de linguagem usando várias referências.

― 8 min ler


MRPO: Próximo Passo paraMRPO: Próximo Passo paraLLMshumanas.modelo de linguagem com as preferênciasUm método pra melhorar a alinhamento do
Índice

Modelos de Linguagem Grande (LLMs) conseguem escrever e entender textos que parecem humanos. Mas fazer com que esses modelos realmente reflitam os valores e intenções humanas é bem complicado. Uma maneira comum de melhorar esse alinhamento é coletando as preferências humanas sobre as saídas dos modelos e ajustando os LLMs com base nesse feedback. Isso ajuda a garantir que as atualizações não se afastem muito de um modelo de referência.

Tradicionalmente, técnicas como otimização por aprendizado de reforço têm sido usadas para essa tarefa. Porém, esses métodos podem ser lentos e instáveis. Uma abordagem mais nova chamada otimização de preferência direta (DPO) oferece uma alternativa mais estável e rápida, usando perdas claras e supervisionadas que não precisam de processos complexos de aprendizado por reforço.

Apesar das melhorias que o DPO traz, ele tem uma desvantagem significativa. Ele depende principalmente de apenas um modelo de referência. Isso significa que ele perde as forças que vêm do uso de vários modelos pré-treinados juntos. Para lidar com essa questão, apresentamos um método chamado Otimização de Preferência Multi-Referência (MRPO). Esse método utiliza múltiplos modelos de referência para reunir mais conhecimento e melhorar o aprendizado de preferências. Nossos achados mostram que LLMs ajustados com MRPO se saem melhor em entender e gerar saídas preferidas, mesmo quando os dados são limitados. Além disso, o MRPO mostra resultados fortes em várias tarefas de processamento de linguagem natural.

O Desafio do Alinhamento

LLMs como GPT e outros conseguem gerar textos que parecem muito semelhantes ao que um humano escreveria. Mas alinhar esses modelos para refletir verdadeiramente os valores e preferências humanas é complicado. O objetivo é moldar as respostas deles com base em feedback humano cuidadosamente selecionado.

Um método popular para isso é o aprendizado por reforço com feedback humano (RLHF). Nessa abordagem, avaliações humanas são usadas para criar um modelo de recompensas que ajuda a otimizar como o LLM responde. O processo envolve maximizar o alinhamento do modelo com essas avaliações enquanto minimiza quaisquer mudanças em relação ao modelo de referência inicial.

Embora o RLHF tenha mostrado algum sucesso, geralmente é complicado e pesado em recursos. Avanços recentes, incluindo o DPO, tentam simplificar isso. O DPO otimiza diretamente o modelo minimizando perdas de log-verossimilhança negativas com base nas preferências. No entanto, como o DPO depende de um único modelo de referência, ele não tira proveito dos benefícios potenciais de múltiplos modelos.

O Valor de Usar Múltiplas Referências

Usar vários modelos de referência pode melhorar muito o processo de aprendizado. Quando vários modelos avaliam e informam o modelo principal, a saída resultante pode refletir uma gama mais ampla de perspectivas, tornando os resultados finais mais confiáveis. Isso é crucial à medida que a comunidade continua a desenvolver e lançar vários modelos pré-treinados que são feitos com conjuntos de dados diversos.

Apesar das vantagens, tentativas anteriores não utilizaram efetivamente múltiplos modelos de referência no processo de otimização. Existem três grandes desafios que precisam ser abordados:

  1. Complexidade das Não-linearidades: Criar uma solução simples envolvendo múltiplos modelos de referência é desafiador, já que os cálculos podem se tornar complexos e não-lineares.

  2. Saídas Divergentes: Modelos de referência diferentes podem produzir saídas diferentes para a mesma entrada, o que pode criar confusão durante o processo de aprendizado e levar a um treinamento instável.

  3. Determinando Contribuições: Descobrir quanto cada modelo de referência contribui durante o treinamento é complicado e geralmente requer muito ajuste.

Apresentando a Otimização de Preferência Multi-Referência (MRPO)

Para superar os desafios mencionados acima, propomos o MRPO. Esse método simplifica o processo de otimização maximizando um limite inferior que nos permite combinar insights de vários modelos de referência em uma única estrutura.

Lidando com Não-linearidade

Para lidar com a complexidade dos cálculos, sugerimos um limite inferior substituto mais simples. Esse limite inferior nos ajuda a encontrar uma solução sólida em forma fechada que utiliza múltiplos modelos de referência. O suporte teórico e o desempenho da nossa solução se mostram melhores do que simplesmente combinar várias perdas de DPO.

Garantindo um Treinamento Estável

Saídas divergentes de diferentes modelos de referência podem levar a instabilidade. Para lidar com esse problema, introduzimos uma técnica chamada otimização de região de confiança cortada (CTRO). Esse método mantém as probabilidades de saída do modelo principal alinhadas de perto com a saída do modelo de referência selecionado. Ao cortar as log-probabilidades, podemos garantir que as diferenças sejam minimizadas, o que ajuda a estabilizar o processo de treinamento.

Além disso, a taxa de corte pode mudar com base na probabilidade prevista dos dados. Se um modelo de referência está muito confiante sobre sua saída para uma certa entrada, uma faixa de corte menor é usada para garantir que o modelo principal aprenda de perto com essa saída confiável. Por outro lado, se o modelo de referência está menos confiante, uma faixa de corte maior permite um pouco mais de exploração.

Pesagem de Contribuições Dinâmicas

Determinar quanto cada modelo de referência influencia durante o treinamento também é essencial. Introduzimos um mecanismo dinâmico para calcular pesos para as contribuições de cada modelo com base em seus níveis de confiança. Ao observar quão confiantemente um modelo consegue distinguir entre duas saídas, podemos atribuir adaptativamente os pesos apropriados.

Resultados Experimentais

Realizamos diversas avaliações para testar o MRPO contra métodos tradicionais como DPO e uma simples combinação de perdas de DPO.

Desempenho com Dados Limitados

Em muitas situações, o feedback humano é escasso. Testamos o MRPO com pequenos conjuntos de dados de preferências e descobrimos que ele consistentemente superou o DPO e combinações ingênuas de múltiplas perdas de DPO. A melhoria foi particularmente notável quando a quantidade de dados de treinamento era limitada.

Desempenho com Conjuntos de Dados Grandes

Para verificar se o MRPO poderia lidar com conjuntos de dados maiores e mais complexos, testamos com conjuntos de dados do mundo real como HelpSteer, Ultrafeedback e Nectar. Nesses testes, o MRPO novamente mostrou melhorias significativas em relação ao DPO, demonstrando que ele escala bem com conjuntos de dados maiores e consegue aprender efetivamente com entradas humanas mais abrangentes.

Desempenho em Tarefas Gerais de Compreensão de Linguagem

Também analisamos o desempenho do MRPO em benchmarks padrão para compreensão de linguagem, como GSM8K, MMLU e TruthfulQA. Os resultados indicaram que o MRPO não só melhorou o desempenho base dos modelos, mas também alcançou melhorias notáveis em relação ao método DPO.

Destilação de Modelos Mais Fortes para Modelos Mais Fracos

Um aspecto interessante do MRPO é sua capacidade de transferir aprendizado de LLMs maiores e mais fortes para modelos menores. Isso pode ser particularmente útil em situações onde modelos menores são necessários para dispositivos móveis ou outros cenários de baixa recursos. Testando com TinyLlama e Mistral como modelos de referência, o MRPO mostrou uma leve vantagem de desempenho sobre o DPO, reafirmando sua eficácia mesmo com modelos menores.

A Importância da Otimização de Região de Confiança Cortada (CTRO)

O CTRO desempenha um papel significativo em garantir a precisão e estabilidade do MRPO. Através de experimentos, confirmamos que sem o CTRO, o treinamento poderia se tornar instável, especialmente ao lidar com modelos de referência que são bastante diferentes entre si.

A Necessidade de Pesagem Adaptativa

Nossos testes também destacaram a importância de usar uma abordagem adaptativa para pesar as contribuições de cada modelo. Foi mostrado que uma abordagem fixa era menos eficaz do que ajustar dinamicamente os pesos com base no desempenho de cada modelo.

Conclusão

Neste trabalho, introduzimos o MRPO, um método novo que usa múltiplos modelos de referência para melhorar o aprendizado de preferências para grandes modelos de linguagem. A base teórica e os resultados práticos demonstram sua eficácia em melhorar a generalização em vários conjuntos de dados de preferências.

Embora o MRPO mostre grande potencial, existem limitações devido ao número de modelos de referência e seus tamanhos. Pesquisas futuras irão explorar como escalar o MRPO, buscando entender como ele pode ser benéfico com modelos maiores e conjuntos de dados mais diversos.

Implicações Mais Amplas

Utilizamos conjuntos de dados disponíveis publicamente para nossos experimentos. Nosso objetivo é alinhar melhor os LLMs com os valores e preferências humanas. No entanto, reconhecemos que essa abordagem pode ser mal utilizada, o que é um risco inerente a qualquer sistema que aprende com dados humanos.

Resumindo, o MRPO representa um grande avanço no esforço contínuo para melhorar os LLMs, alinhando-os mais de perto com as necessidades e valores dos usuários, enquanto garante que eles possam gerar efetivamente saídas relevantes e preferidas.

Fonte original

Título: Multi-Reference Preference Optimization for Large Language Models

Resumo: How can Large Language Models (LLMs) be aligned with human intentions and values? A typical solution is to gather human preference on model outputs and finetune the LLMs accordingly while ensuring that updates do not deviate too far from a reference model. Recent approaches, such as direct preference optimization (DPO), have eliminated the need for unstable and sluggish reinforcement learning optimization by introducing close-formed supervised losses. However, a significant limitation of the current approach is its design for a single reference model only, neglecting to leverage the collective power of numerous pretrained LLMs. To overcome this limitation, we introduce a novel closed-form formulation for direct preference optimization using multiple reference models. The resulting algorithm, Multi-Reference Preference Optimization (MRPO), leverages broader prior knowledge from diverse reference models, substantially enhancing preference learning capabilities compared to the single-reference DPO. Our experiments demonstrate that LLMs finetuned with MRPO generalize better in various preference data, regardless of data scarcity or abundance. Furthermore, MRPO effectively finetunes LLMs to exhibit superior performance in several downstream natural language processing tasks such as GSM8K and TruthfulQA.

Autores: Hung Le, Quan Tran, Dung Nguyen, Kien Do, Saloni Mittal, Kelechi Ogueji, Svetha Venkatesh

Última atualização: 2024-05-25 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.16388

Fonte PDF: https://arxiv.org/pdf/2405.16388

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes