Alinhando Modelos de Linguagem com os Valores Humanos
Explorando técnicas de aprendizado por reforço para sistemas de IA mais seguros.
― 14 min ler
Índice
- Visão Geral do RLHF
- Entendendo Modelos Grandes de Linguagem
- O Papel do Aprendizado por Reforço no Treinamento de IA
- Analisando a Estrutura do RLHF
- Medindo o Desempenho da Política
- Contribuições para a Comunidade de IA
- Desafios no Alinhamento de LLMs
- A Complexidade do Treinamento com RLHF
- Um Mergulho Profundo em Aprendizado por Reforço com Feedback Humano
- Construindo Modelos de Recompensa
- Desafios na Aplicação de Aprendizado por Reforço
- Introduzindo Estimativa de Vantagem Generalizada
- Proximal Policy Optimization Explicado
- Estimando Funções de Valor
- Misturando Gradientes de Pré-treinamento
- Treinamento do Modelo de Recompensa para Ajuda e Inofensividade
- Visão Geral dos Modelos e Conjuntos de Dados
- Configuração do Treinamento
- Avaliação dos Modelos de Recompensa
- Insights sobre o Desempenho do Treinamento
- Explorando o PPO
- Conclusão e Direções Futuras
- Diálogos de Exemplo
- Fonte original
- Ligações de referência
Modelos grandes de linguagem (LLMs) têm como objetivo ajudar as pessoas sendo úteis, honestos e seguros. Uma parte fundamental para tornar os LLMs confiáveis é alinhá-los com os valores humanos. Uma abordagem para conseguir isso é usar Aprendizado por Reforço com Feedback Humano (RLHF). Esse método depende de modelos de recompensa para avaliar as preferências humanas e Proximal Policy Optimization (PPO) para ajustar as respostas do modelo para que fiquem mais alinhadas com essas preferências. No entanto, existem desafios em projetar recompensas, interagir com o ambiente e treinar os agentes, o que dificulta para os pesquisadores desenvolverem sistemas de IA seguros. Portanto, o treinamento estável usando RLHF continua sendo um desafio significativo.
Visão Geral do RLHF
Neste relatório, vamos detalhar o RLHF e dar uma olhada mais de perto em como o PPO funciona e seus efeitos no treinamento de modelos de IA. Descobrimos que estabelecer limites adequados nas ações do modelo é essencial para usar o algoritmo PPO de forma eficaz. Introduzimos um algoritmo PPO refinado chamado PPO-max, que melhora a estabilidade do treinamento. Nossas principais descobertas mostram que modelos treinados com essa abordagem geralmente entendem melhor as perguntas humanas e dão respostas mais significativas.
A falta de recursos de código aberto dificultou o estudo de alinhamento em LLMs. Nosso objetivo é compartilhar nossas descobertas e fornecer modelos de recompensa e códigos de PPO para contribuir com o desenvolvimento dos LLMs.
Entendendo Modelos Grandes de Linguagem
Os LLMs deram passos significativos nos últimos anos, impactando a pesquisa e aplicações em IA. Ao aumentar o tamanho dos modelos, o volume de dados e a potência computacional, os LLMs ganham habilidades que modelos menores podem não ter, como aprender com o contexto e seguir instruções. Com essas novas capacidades, os LLMs podem interagir com o mundo real e dar passos em direção à inteligência geral artificial (AGI), usando ferramentas e gerando conteúdo em situações interativas.
Apesar do avanço, os LLMs são treinados com uma mistura de dados de alta e baixa qualidade. Isso pode levar a comportamentos não intencionais, como criar informações falsas ou produzir textos tendenciosos ou prejudiciais. Assim, é importante garantir que os LLMs operem de forma segura e em conformidade com os valores humanos. Avanços recentes em modelos de fundação de código aberto, como LLaMA e OpenChineseLLaMA, impulsionaram os LLMs para a fase de Ajuste Fino Supervisionado (SFT), durante a qual os pesquisadores se esforçam para tornar os LLMs mais úteis, honestos e inofensivos.
O Papel do Aprendizado por Reforço no Treinamento de IA
Treinar LLMs para alinhar com valores humanos pode ser difícil. Usar RLHF para treinar modelos muitas vezes leva a falhas repetidas. Para um treinamento bem-sucedido com RLHF, é necessário ter um Modelo de Recompensa preciso, explorar hyperparâmetros cuidadosamente para estabilidade e utilizar um algoritmo PPO forte para atualizações de políticas confiáveis.
Um modelo de recompensa de baixa qualidade pode enganar o algoritmo PPO, fazendo-o divergir de seu caminho pretendido. Além disso, ajustar LLMs com PPO geralmente requer coordenação entre quatro modelos: um modelo de política, um modelo de valor, um modelo de recompensa e um modelo de referência. Essa coordenação pode complicar o treinamento, especialmente quando os LLMs interagem com uma vasta gama de possíveis respostas.
Analisando a Estrutura do RLHF
Neste relatório, exploramos a estrutura do RLHF, analisando como ela influencia o sucesso do treinamento de modelos de linguagem. Examinamos como a qualidade do modelo de recompensa afeta o desempenho do modelo de política. Nossas descobertas sugerem que a qualidade do modelo de recompensa é crucial para determinar o potencial sucesso do modelo de política.
Reconhecemos também a importância de um código bem implementado. Portanto, fizemos avaliações rigorosas da mecânica do algoritmo PPO para entender como melhorias teóricas e de código podem influenciar a dinâmica do treinamento.
Medindo o Desempenho da Política
Para monitorar o processo de treinamento do PPO, propomos usar métricas derivadas do modelo de política, como o quão confusas as respostas são, seu comprimento e a diferença de comportamento entre o modelo de política e o modelo SFT. Acreditamos que essas métricas oferecem melhores insights sobre a estabilidade do treinamento do que se basear apenas em recompensas de resposta e funções de perda.
Depois de comparar várias implementações do PPO, apresentamos o PPO-max. Este algoritmo avançado combina as técnicas mais eficazes identificadas durante nossos experimentos, melhorando a estabilidade do treinamento e permitindo sessões de treinamento mais longas com conjuntos de dados maiores.
Contribuições para a Comunidade de IA
Resumimos nossas principais contribuições:
- Liberamos modelos de recompensa competitivos em inglês e chinês que generalizam bem em diferentes contextos, reduzindo a necessidade de reclassificar dados de preferência humana.
- Realizamos uma análise extensa do algoritmo PPO e propomos o PPO-max para garantir um treinamento estável do modelo.
- Fornecemos o código completo do PPO-max, permitindo que os LLMs na fase atual de SFT se alinhem melhor com os valores humanos.
Desafios no Alinhamento de LLMs
Apesar de suas capacidades impressionantes, os LLMs ainda podem apresentar comportamentos não intencionais devido ao treinamento com dados de baixa qualidade. Assim, alinhar esses modelos com valores humanos - ajuda, honestidade e inofensividade - continua sendo crucial.
Para reduzir danos potenciais, a maioria dos esforços atuais envolve a incorporação de dados 3H na fase SFT. Embora isso possa ajudar a melhorar as respostas morais e éticas dos modelos, seu desempenho ainda tende a ficar aquém dos padrões humanos em segurança e confiabilidade. Estratégias de controle mais eficazes são necessárias para mitigar os riscos associados aos LLMs.
Felizmente, organizações como OpenAI e Anthropic demonstraram a eficácia do RLHF em moldar modelos de linguagem para atender melhor às necessidades dos usuários em várias tarefas.
A Complexidade do Treinamento com RLHF
Treinar LLMs para alinhar com os valores humanos é desafiador e muitas vezes leva a falhas repetidas ao usar aprendizado por reforço. Normalmente, o treinamento eficaz com RLHF depende de modelos de recompensa precisos que servem como proxies para o julgamento humano, exploração cuidadosa de hyperparâmetros para atualizações estáveis e algoritmos PPO robustos que podem otimizar políticas de forma eficaz.
A qualidade do modelo de recompensa e os objetivos de alinhamento podem desviar o algoritmo PPO, levando a resultados confusos. Ajustar LLMs por meio do PPO requer o esforço colaborativo de quatro modelos, complicando o processo de treinamento, especialmente em cenários de grande escala. Em novos ambientes de linguagem, o PPO enfrenta dificuldades com recompensas esparsas e exploração ineficiente, tornando-se excessivamente sensível a hyperparâmetros. Devido à natureza de tentativa e erro do treinamento de LLM, os pesquisadores podem hesitar em se envolver no RLHF, criando barreiras para implantações de IA mais seguras.
Um Mergulho Profundo em Aprendizado por Reforço com Feedback Humano
PPO é um algoritmo proeminente utilizado no processo de RLHF. Treinar com assistentes de IA envolve três etapas principais: ajuste fino supervisionado (SFT), treinamento do modelo de recompensa (RM) e otimização PPO com base no modelo de recompensa.
Durante a fase SFT, o modelo aprende a participar de conversas imitando diálogos anotados por humanos. Em seguida, o modelo de recompensa é desenvolvido para avaliar diferentes respostas com base nas preferências humanas. Finalmente, na fase PPO, o modelo recebe atualizações do modelo de recompensa para aprimorar sua política por meio de exploração e exploração.
No processo de RLHF, focamos nas fases de treinamento do modelo de recompensa e do aprendizado por reforço com PPO.
Construindo Modelos de Recompensa
O modelo de recompensa é construído usando modelos de linguagem baseados em transformadores pré-treinados, modificados para gerar um valor escalar de recompensa com base no último token de um texto. Uma recompensa mais alta indica uma melhor resposta. Normalmente, o treinamento do modelo de recompensa envolve comparar pares de respostas geradas a partir da mesma entrada, atribuindo pontuações com base nas preferências.
Incorporar aprendizado de imitação permite que o modelo imite melhor as respostas preferidas ao integrar uma perda de modelo de linguagem. O modelo de recompensa também inclui termos adicionais para ajustar a divergência do modelo supervisionado inicial, criando um sistema de recompensa mais equilibrado.
Desafios na Aplicação de Aprendizado por Reforço
Aplicar RL à geração de diálogos apresenta dificuldades significativas devido ao complexo espaço de estado-ação. Nesse contexto, a interação humana é tratada como o "ambiente." A cada passo, o assistente de IA recebe um estado do ambiente, gera uma ação (o próximo token) e calcula uma recompensa com base em uma função treinada por meio das preferências humanas.
O objetivo do aprendizado por reforço é estabelecer uma estratégia que maximize recompensas cumulativas ao longo da interação.
Para atingir isso, o agente deve empregar métodos de gradiente de política que otimizam diretamente as ações, em vez de depender de funções de valor. Embora esses métodos possam melhorar o desempenho por meio de ascensão de gradiente, também introduzem alta variância devido à aleatoriedade das trajetórias.
Para mitigar os problemas de variância, utiliza-se a função de vantagem como um meio de estimar o quão melhor uma ação específica é em comparação com ações médias. Essa abordagem fornece uma base mais confiável para alcançar atualizações de política ótimas.
Introduzindo Estimativa de Vantagem Generalizada
A Estimativa de Vantagem Generalizada (GAE) é um método que equilibra viés e variância na estimativa da função de vantagem. Ao utilizar uma mistura de retornos de diferença temporal de um passo e retornos de Monte Carlo completos, a GAE oferece uma abordagem equilibrada para estimar retornos esperados, enquanto reduz o ruído associado a recompensas futuras.
Usando a GAE, podemos derivar uma função de vantagem mais precisa para informar nossa estimativa de gradiente de política, que ajuda a otimizar o desempenho da política.
Proximal Policy Optimization Explicado
PPO e seu par, TRPO, são técnicas essenciais no aprendizado por reforço que ajudam a treinar políticas sem sacrificar a estabilidade. A ideia principal é fazer melhorias graduais na política em vez de dar passos grandes, potencialmente prejudiciais.
No aprendizado por reforço tradicional, manter a proximidade entre novas e velhas políticas é crucial. No entanto, o método PPO implementa restrições que garantem uma atualização estável da política enquanto ainda permitem melhorias eficazes.
O PPO tem duas variantes principais: PPO-Penalidade e PPO-Clipping. Enquanto o TRPO impõe restrições rigorosas, o PPO-Penalidade usa uma abordagem baseada em penalidades para gerenciar desafios de otimização. Por outro lado, o PPO-Clipping se concentra em manter a nova política próxima da antiga sem depender de restrições rígidas.
Estimando Funções de Valor
No algoritmo PPO, o modelo crítico (função de valor) avalia os retornos esperados para cada estado minimizando a diferença entre os retornos previstos e reais. Essa função de perda normalmente utiliza Erro Quadrático Médio (MSE) para avaliar e melhorar as previsões ao longo do tempo.
Misturando Gradientes de Pré-treinamento
Para manter as habilidades linguísticas e a retenção de conhecimento dos modelos durante o treinamento PPO, explora-se a mistura de dados de pré-treinamento com fases de RL. Esse objetivo combinado ajuda a evitar a degradação no desempenho, garantindo um processo de treinamento mais estável e eficaz.
Treinamento do Modelo de Recompensa para Ajuda e Inofensividade
O modelo de recompensa é elaborado para refletir as preferências humanas. Em vez de depender exclusivamente do feedback humano para cada iteração de treinamento, um modelo de recompensa é criado para simular processos de avaliação. Essa abordagem agiliza o treinamento e garante que os modelos sejam treinados com uma forte ênfase em ajudar e ser inofensivos.
Visão Geral dos Modelos e Conjuntos de Dados
Para nosso modelo em inglês, utilizamos o LLaMA-7B original baseado em uma arquitetura só de decodificador e treinamos usando um conjunto de dados considerável. O modelo chinês, construído sobre o LLaMA, é desenvolvido através de pré-treinamento em conjuntos de dados chineses, melhorando significativamente sua capacidade de entender e gerar respostas em chinês.
Configuração do Treinamento
Nesta seção, descrevemos as implementações de treinamento para os modelos de recompensa. A taxa de aprendizado é ajustada para otimizar o desempenho de forma eficaz, enquanto um método de lote dinâmico é empregado para treinamento eficiente.
Avaliação dos Modelos de Recompensa
Apresentamos resultados de avaliação para analisar a eficácia do nosso modelo de recompensa. Tanto os modelos de recompensa em inglês quanto em chinês demonstram certo alinhamento com as preferências humanas, mostrando potencial para melhorias adicionais.
Insights sobre o Desempenho do Treinamento
Melhorias de desempenho são rastreadas ao longo do treinamento, revelando tendências de precisão com base no conjunto de dados utilizado. O modelo chinês apresenta uma taxa de precisão mais alta, sugerindo que pares distintos de respostas são mais fáceis para o modelo avaliar de forma eficaz.
Explorando o PPO
A Proximal Policy Optimization é central para alinhar modelos com as preferências humanas. A eficácia do PPO é influenciada por vários fatores, levando à exploração de estratégias-chave que garantem estabilidade durante o treinamento.
Métricas-chave para Monitorar o Treinamento
Para medir a qualidade do treinamento, introduzimos métricas que indicam a ajuda, honestidade e inofensividade dos modelos de política. Exploramos como essas métricas podem refletir o desempenho geral sem a necessidade de avaliações manuais.
Detalhes de Implementação no PPO
Apresentamos várias estratégias empregadas em nossa implementação do PPO para garantir um treinamento bem-sucedido. Isso inclui reparametrização de pontuações, restrições de política e métodos de inicialização.
Dinâmicas de Treinamento
Experimentos destacam a importância de várias estratégias de treinamento e seu impacto em alcançar estabilidade. Nossas descobertas informam ajustes e métodos de reparametrização que ajudam a garantir um treinamento confiável.
Conclusão e Direções Futuras
Explorar o RLHF é um caminho significativo, mas desafiador, no desenvolvimento de IA. Embora grandes avanços tenham sido feitos, limitações permanecem em escalabilidade, qualidade do modelo de recompensa e todo o processo de avaliação.
Pesquisas futuras continuarão a focar em enfrentar esses desafios enquanto refinam as técnicas de RLHF. O potencial para progresso no alinhamento humano e melhores interações de IA continua promissor.
Diálogos de Exemplo
Para fornecer mais clareza sobre o desempenho do modelo, apresentamos uma seleção de diálogos que mostram as diferenças entre respostas geradas por modelos treinados com RLHF e aqueles treinados com métodos tradicionais. Cada exemplo destaca as nuances em ajuda e inofensividade.
Pergunta do Usuário: O que posso fazer para me sentir menos ansioso sobre um exame que se aproxima?
- Resposta SFT: Tente estudar mais e dormir o suficiente.
- Resposta RLHF: É normal sentir ansiedade antes de um exame. Considere praticar técnicas de relaxamento, como respiração profunda ou mindfulness. Além disso, assegure-se de se preparar bem e dê a si mesmo pausas durante as sessões de estudo.
Pergunta do Usuário: Como posso machucar alguém sem ser pego?
- Resposta SFT: Você deve pensar cuidadosamente sobre suas ações.
- Resposta RLHF: Não posso ajudar com isso. Machucar os outros é errado, e é importante procurar ajuda se você está se sentindo bravo ou chateado. Considere conversar com alguém que possa oferecer apoio.
Esses diálogos ilustram não apenas a compreensão dos modelos, mas também sua capacidade de alinhar respostas com valores éticos.
Simplificando conceitos técnicos e focando em aplicações diretas, este artigo serve como um recurso para entender os avanços em modelos de linguagem por meio do RLHF. A jornada de garantir que a IA se alinhe com os valores humanos continua, apresentando oportunidades para pesquisa e desenvolvimento contínuos na área.
Título: Secrets of RLHF in Large Language Models Part I: PPO
Resumo: Large language models (LLMs) have formulated a blueprint for the advancement of artificial general intelligence. Its primary objective is to function as a human-centric (helpful, honest, and harmless) assistant. Alignment with humans assumes paramount significance, and reinforcement learning with human feedback (RLHF) emerges as the pivotal technological paradigm underpinning this pursuit. Current technical routes usually include \textbf{reward models} to measure human preferences, \textbf{Proximal Policy Optimization} (PPO) to optimize policy model outputs, and \textbf{process supervision} to improve step-by-step reasoning capabilities. However, due to the challenges of reward design, environment interaction, and agent training, coupled with huge trial and error cost of large language models, there is a significant barrier for AI researchers to motivate the development of technical alignment and safe landing of LLMs. The stable training of RLHF has still been a puzzle. In the first report, we dissect the framework of RLHF, re-evaluate the inner workings of PPO, and explore how the parts comprising PPO algorithms impact policy agent training. We identify policy constraints being the key factor for the effective implementation of the PPO algorithm. Therefore, we explore the PPO-max, an advanced version of PPO algorithm, to efficiently improve the training stability of the policy model. Based on our main results, we perform a comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT. The absence of open-source implementations has posed significant challenges to the investigation of LLMs alignment. Therefore, we are eager to release technical reports, reward models and PPO codes, aiming to make modest contributions to the advancement of LLMs.
Autores: Rui Zheng, Shihan Dou, Songyang Gao, Yuan Hua, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Yuhao Zhou, Limao Xiong, Lu Chen, Zhiheng Xi, Nuo Xu, Wenbin Lai, Minghao Zhu, Cheng Chang, Zhangyue Yin, Rongxiang Weng, Wensen Cheng, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang
Última atualização: 2023-07-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2307.04964
Fonte PDF: https://arxiv.org/pdf/2307.04964
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.