Simplificando o Treinamento de Modelos de Linguagem com Otimização de Preferência Direta
Uma nova abordagem melhora os modelos de linguagem otimizando diretamente para as preferências humanas.
― 7 min ler
Índice
Modelos de linguagem grandes são ótimos em gerar texto com base em padrões que aprendem dos dados. Mas esses modelos muitas vezes agem de forma imprevisível, porque são treinados sem uma orientação específica sobre o que os usuários querem. Isso torna difícil controlar o que eles produzem. Métodos tradicionais tentam fazer os modelos agirem de acordo com as Preferências Humanas usando um processo complicado chamado Aprendizado por Reforço a partir de feedback humano (RLHF). Esse método precisa de muitos passos, tornando tudo meio complicado e às vezes pouco confiável.
No nosso trabalho, apresentamos um método chamado Otimização de Preferência Direta (DPO) que simplifica esse processo. Em vez de precisar do complicado modelo de recompensa que o RLHF exige, o DPO permite que a gente treine modelos de linguagem diretamente com base nas preferências. Isso torna o processo mais simples, rápido e estável.
Por que controlar modelos de linguagem?
O poder dos modelos de linguagem grandes também vem com riscos. Eles podem gerar conteúdo que reflete ideias enganosas ou informações de baixa qualidade presentes nos dados de treinamento. Por exemplo, um assistente de programação pode aprender sobre erros comuns de programação e acabar refletindo esses erros em seu output, em vez de fornecer um código útil. Da mesma forma, um modelo pode reforçar crenças erradas sem querer.
Para construir sistemas de IA seguros e eficazes, é crucial alinhar seu comportamento com os valores humanos. Um mecanismo de controle garante que os sistemas de IA possam produzir resultados que consideramos desejáveis e úteis.
Métodos atuais para treinar modelos de linguagem
As abordagens tradicionais para alinhar modelos de linguagem com as preferências humanas dependem fortemente do aprendizado por reforço. Esses métodos geralmente envolvem várias etapas principais:
Treinamento inicial: Primeiro, um grande modelo de linguagem é treinado em uma quantidade massiva de dados textuais.
Coleta de preferências: Depois do treinamento inicial, o modelo gera respostas a solicitações. Revisores humanos comparam essas respostas e indicam quais preferem.
Modelagem de recompensa: Um modelo separado aprende com essas preferências, criando um sistema de recompensa que orienta o modelo de linguagem.
Aperfeiçoamento: O modelo de linguagem é atualizado usando um algoritmo de aprendizado por reforço que busca maximizar a recompensa aprendida.
Embora o RLHF possa levar a modelos de alto desempenho, é complicado. A necessidade de vários modelos e a incerteza nos sinais de recompensa podem tornar o aperfeiçoamento menos confiável.
Introdução à Otimização de Preferência Direta (DPO)
O DPO é um método que permite o treinamento de modelos de linguagem diretamente a partir de preferências, sem precisar do complicado setup de aprendizado por reforço. Em vez de um modelo de recompensa separado, o DPO foca em simplesmente otimizar o modelo de linguagem para satisfazer as preferências humanas usando uma perda de classificação simples.
Como funciona o DPO
O DPO identifica uma maneira de relacionar funções de recompensa e políticas de modelo ótimas. Ao otimizar diretamente o modelo de linguagem usando dados de preferências humanas, podemos evitar as armadilhas do aprendizado por reforço. Veja como funciona:
Coleta de preferências: Assim como nos métodos tradicionais, reunimos preferências humanas sobre diferentes respostas.
Otimização de políticas: Usando essas preferências, treinamos o modelo de linguagem diretamente. O processo de treinamento aumenta a probabilidade de respostas preferidas enquanto diminui a probabilidade das que não são preferidas.
Eficiência: O DPO consegue isso usando um único passo de otimização em vez de passar pelas etapas de modelagem de recompensa separada e aprendizado por reforço.
Essa abordagem reduz a complexidade do processo de treinamento, tornando mais fácil de implementar e mais rápido para gerar resultados.
Vantagens da Otimização de Preferência Direta
O DPO tem várias vantagens sobre os métodos tradicionais de RLHF.
Simplicidade
O DPO elimina a necessidade de uma etapa separada de aprendizado de recompensa. Isso significa que podemos focar em melhorar diretamente o modelo de linguagem com base no que os usuários preferem, em vez de tentar encaixar um modelo para recompensas primeiro.
Estabilidade e desempenho
O DPO mostrou ser mais estável. Como não depende do aprendizado por reforço, que pode ser instável às vezes, vemos um desempenho consistente sem os riscos de degradação de modelo que podem acontecer com implementações ingênuas.
Eficiência computacional
Treinar modelos de linguagem com DPO consome menos recursos. Evitamos a computação pesada frequentemente associada ao treinamento de múltiplos modelos e ao ajuste complexo de hiperparâmetros típico no RLHF.
Resultados bem-sucedidos
Experimentos revelaram que o DPO pode alinhar modelos de linguagem com preferências humanas tão bem ou até melhor do que os métodos existentes. Em tarefas que envolvem controle de sentimento, sumarização e diálogo, o DPO não só teve um bom desempenho, mas também foi mais simples de treinar.
Tarefas e experimentos com DPO
Para mostrar a eficácia do DPO, testamos ele em várias aplicações.
Controle de sentimento
Na nossa tarefa de controle de sentimento, o objetivo era fazer com que o modelo gerasse texto com um sentimento específico, tipo ser positivo. Usando um classificador de sentimento pré-treinado para gerar pares de preferência, guiamos o modelo de linguagem a produzir texto que refletisse o sentimento pretendido de forma eficaz.
Sumarização
Para a tarefa de sumarização, nosso objetivo era criar resumos concisos de textos mais longos enquanto retínhamos informações importantes. Treinamos o modelo com preferências geradas por humanos sobre os resumos gerados, permitindo que o DPO aprendesse quais tipos de resumos eram preferidos pelos usuários.
Diálogo de turno único
No diálogo de turno único, o modelo precisava responder a perguntas ou solicitações de forma eficaz. O DPO foi usado para treinar um modelo que produzia respostas envolventes e apropriadas com base nas preferências humanas coletadas de interações anteriores.
Resultados dos experimentos com DPO
Avaliação de desempenho
Nos nossos experimentos, o DPO consistentemente obteve notas altas em comparação com os métodos tradicionais. Ele demonstrou uma capacidade de entregar resultados que se alinhavam bem com as expectativas humanas, além de ser fácil de implementar.
Tarefa de Sentimento: Modelos DPO produziram respostas que foram preferidas em relação às respostas dos modelos RLHF tradicionais.
Tarefa de Sumarização: Ao avaliar os resumos, o DPO se destacou, produzindo resumos que tanto humanos quanto modelos favoreciam.
Tarefa de Diálogo: Em conversas, as respostas geradas pelo DPO foram avaliadas como úteis e envolventes com mais frequência do que aquelas geradas por métodos concorrentes.
Generalização para novas tarefas
Uma das descobertas mais significativas foi a capacidade do DPO de generalizar. Quando os modelos foram aplicados a novos tipos de dados, ainda apresentaram bom desempenho, sugerindo que o regime de treinamento do DPO equipou os modelos com uma capacidade versátil de lidar com vários contextos.
Conclusão
O DPO apresenta uma nova maneira de treinar modelos de linguagem sem a complexidade dos métodos tradicionais de aprendizado por reforço. Ao otimizar diretamente com base nas preferências humanas, melhoramos a capacidade dos modelos de produzir resultados úteis que refletem o que os usuários realmente querem.
Direções futuras
Embora o DPO mostre potencial, há áreas para mais exploração:
Generalização entre domínios: Quão bem os modelos treinados com DPO se saem quando enfrentam assuntos completamente novos?
Escalabilidade: O DPO consegue treinar modelos ainda maiores sem perda de desempenho?
Aprimoramento da coleta de preferências: Qual é a melhor maneira de reunir e utilizar as preferências humanas para garantir que os modelos aprendam de forma eficaz?
Aplicação cruzada: Como o DPO pode ser adaptado para outras formas de modelagem generativa além da linguagem?
Em resumo, o DPO oferece uma maneira mais simples e eficaz de desenvolver modelos de linguagem fundamentados em preferências humanas, abrindo caminho para sistemas de IA mais seguros e controláveis.
Título: Direct Preference Optimization: Your Language Model is Secretly a Reward Model
Resumo: While large-scale unsupervised language models (LMs) learn broad world knowledge and some reasoning skills, achieving precise control of their behavior is difficult due to the completely unsupervised nature of their training. Existing methods for gaining such steerability collect human labels of the relative quality of model generations and fine-tune the unsupervised LM to align with these preferences, often with reinforcement learning from human feedback (RLHF). However, RLHF is a complex and often unstable procedure, first fitting a reward model that reflects the human preferences, and then fine-tuning the large unsupervised LM using reinforcement learning to maximize this estimated reward without drifting too far from the original model. In this paper we introduce a new parameterization of the reward model in RLHF that enables extraction of the corresponding optimal policy in closed form, allowing us to solve the standard RLHF problem with only a simple classification loss. The resulting algorithm, which we call Direct Preference Optimization (DPO), is stable, performant, and computationally lightweight, eliminating the need for sampling from the LM during fine-tuning or performing significant hyperparameter tuning. Our experiments show that DPO can fine-tune LMs to align with human preferences as well as or better than existing methods. Notably, fine-tuning with DPO exceeds PPO-based RLHF in ability to control sentiment of generations, and matches or improves response quality in summarization and single-turn dialogue while being substantially simpler to implement and train.
Autores: Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn
Última atualização: 2024-07-29 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.18290
Fonte PDF: https://arxiv.org/pdf/2305.18290
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.