Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas

Simplificando a Alinhamento de IA com REINFORCE e RLOO

Novos métodos prometem melhorar o desempenho dos modelos de IA através de um aprendizado por reforço mais simples.

― 6 min ler


Aperfeiçoando a IA comAperfeiçoando a IA comREINFORCEIA.complexo no treinamento de modelos deMétodos mais simples superam o PPO
Índice

A alinhamento de IA, especialmente usando aprendizado por reforço com feedback humano (RLHF), tá se tornando importante pra criar modelos de linguagem poderosos. Um método comum usado nessa área é chamado de Proximal Policy Optimization (PPO). Mas, esse método pode ser caro em termos de poder computacional e requer um ajuste cuidadoso dos parâmetros. Nosso objetivo é encontrar um método mais simples e menos caro que ainda funcione bem.

Modelos de linguagem grandes (LLMs) geralmente são treinados com quantidades enormes de dados textuais. Esse texto muitas vezes contém várias ideias e preferências complexas. Um grande desafio é descobrir como fazer esses modelos funcionarem melhor com o feedback humano. Apesar de muita pesquisa, não tem um vencedor claro pro melhor método de alinhar esses modelos com as preferências humanas.

O aprendizado por reforço com feedback humano (RLHF) pega ideias do aprendizado por reforço tradicional e tenta melhorar os modelos com base nos julgamentos humanos. Normalmente, usa-se o PPO pra obter os melhores resultados de um sistema de recompensas, que frequentemente é treinado como um classificador binário em pares de saídas de modelo avaliadas por humanos. Embora o PPO tenha ganhado bastante atenção, fazer ele funcionar bem pode ser complicado pra quem não é especialista em aprendizado por reforço.

Desafios com o PPO

  1. Custo Computacional: O PPO geralmente precisa rodar até quatro modelos ao mesmo tempo: o gerador, um modelo de referência, um crítico e um modelo de recompensa. Treinar esses modelos juntos pode ser complicado, especialmente com grandes LLMs que têm bilhões de parâmetros.

  2. Problemas de Otimização: A natureza do aprendizado por reforço online pode ser instável. O PPO requer conhecimento especializado pra ajustá-lo corretamente, o que pode ser uma barreira pra muitos usuários.

Recentemente, alguns pesquisadores sugeriram métodos "sem RL" que não dependem do aprendizado por reforço. Isso inclui técnicas como Direct Preference Optimization (DPO) e outras que simplificam o processo focando em modelos de recompensa sem as complexidades do PPO. Mas, esses novos métodos podem deixar passar oportunidades que estão disponíveis no framework de RL.

Um Retorno à Simplicidade

Ao invés de tirar componentes do RLHF, a gente propõe voltar ao básico. Perguntamos se é possível evitar a complexidade e o custo do PPO enquanto ainda mantém um bom desempenho. Descobrimos que muitos elementos do PPO não são necessários no contexto de aprendizado a partir das preferências humanas em LLMs.

Usar um método de otimização mais simples conhecido como REINFORCE pode gerar melhores resultados que o PPO ou até mesmo os novos métodos "sem RL". Focando nas necessidades específicas dos LLMs e como eles aprendem com feedback, conseguimos uma otimização online eficaz sem incorrer em altos custos.

Os Fundamentos da Otimização de Políticas

No contexto do RLHF, gerar cada palavra em uma frase é tratado como uma ação. Cada frase completa começa com um prompt, que serve como um estado. No entanto, descobrimos que focar na saída inteira ao invés de palavras individuais é mais eficaz pro treinamento.

O método REINFORCE nos permite otimizar com base na sequência inteira gerada pelo modelo, ao invés de passos intermediários. Essa abordagem simplifica o processo e pode levar a um desempenho melhor sem as complicações adicionais introduzidas pelo PPO.

Observações Chave

  1. Foco nas Saídas Inteiras: Tratando toda a resposta como uma única ação, a necessidade de modelar conclusões parciais é reduzida. Isso é especialmente verdadeiro, já que recompensas geralmente são dadas por respostas completas, não por tokens individuais.

  2. Simplicidade Leva a Melhores Resultados: Nossas descobertas mostram que usar métodos mais simples como REINFORCE e sua extensão, REINFORCE Leave-One-Out (RLOO), consistentemente supera o PPO. Por exemplo, o RLOO permite uma melhor utilização de amostras online enquanto mantém robustez contra ruído.

  3. Menos é Mais: A visão chave é que certas técnicas usadas no PPO, como redução de variância e clipping, podem não ser necessárias no contexto do RLHF. Descobrimos que deixar o método mais flexível pode levar a melhores resultados gerais.

Configuração Experimental e Resultados

Pra avaliar nossa abordagem, conduzimos experimentos usando conjuntos de dados populares projetados pra treinamento de preferência humana. Comparamos diferentes métodos, incluindo PPO, REINFORCE e RLOO, em métricas como otimização de recompensas e taxas de vitória contra preferências humanas.

  1. Comparação de Modelos: Em diferentes modelos, incluindo Pythia e Llama, REINFORCE e RLOO mostram desempenho superior em comparação ao PPO. Observamos melhorias significativas nas taxas de vitória, sugerindo que nossos métodos mais simples não só são eficazes, mas também eficientes.

  2. Eficiência de Amostra: O RLOO foi mais eficaz em usar amostras online do que outros métodos. Mesmo usando menos amostras, ele gerou resultados comparáveis ou melhores em todos os conjuntos de dados.

  3. Robustez: O RLOO demonstrou melhor desempenho quando enfrentou sinais de recompensa ruidosos, provando sua confiabilidade em comparação a outros métodos.

Vantagens do REINFORCE e RLOO

  • Melhor Alinhamento com o Feedback Humano: Ao simplificar o processo de aprendizado, REINFORCE e RLOO podem se adaptar melhor às preferências humanas. Eles não ficam atolados em complexidades desnecessárias, permitindo ajustes mais rápidos com base no feedback.

  • Redução das Demandas Computacionais: Com menos modelos pra gerenciar, ambos os métodos reduzem a carga computacional que vem com o PPO. Isso torna acessível pra mais pesquisadores e praticantes.

  • Manutenção do Desempenho: Apesar das simplificações, esses métodos podem manter, ou até melhorar, as métricas de desempenho em relação às abordagens tradicionais.

Conclusão

O aprendizado por reforço com feedback humano é essencial pra desenvolver modelos de linguagem avançados. Ao revisitar os princípios básicos da otimização de políticas, especialmente através de métodos como REINFORCE e RLOO, podemos criar modelos mais eficientes e eficazes.

Essa abordagem não só simplifica o processo, mas também garante um melhor alinhamento com as preferências humanas. Trabalhos futuros podem explorar como esses métodos simplificados interagem com vários modelos de recompensa e investigar seu potencial em outros conjuntos de dados e aplicações em processamento de linguagem natural.

À medida que avançamos, entender o equilíbrio entre complexidade e desempenho será fundamental pra refinar os modelos que aprendem com o feedback humano.

Fonte original

Título: Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs

Resumo: AI alignment in the shape of Reinforcement Learning from Human Feedback (RLHF) is increasingly treated as a crucial ingredient for high performance large language models. Proximal Policy Optimization (PPO) has been positioned by recent literature as the canonical method for the RL part of RLHF. However, it involves both high computational cost and sensitive hyperparameter tuning. We posit that most of the motivational principles that led to the development of PPO are less of a practical concern in RLHF and advocate for a less computationally expensive method that preserves and even increases performance. We revisit the formulation of alignment from human preferences in the context of RL. Keeping simplicity as a guiding principle, we show that many components of PPO are unnecessary in an RLHF context and that far simpler REINFORCE-style optimization variants outperform both PPO and newly proposed "RL-free" methods such as DPO and RAFT. Our work suggests that careful adaptation to LLMs alignment characteristics enables benefiting from online RL optimization at low cost.

Autores: Arash Ahmadian, Chris Cremer, Matthias Gallé, Marzieh Fadaee, Julia Kreutzer, Olivier Pietquin, Ahmet Üstün, Sara Hooker

Última atualização: 2024-02-26 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2402.14740

Fonte PDF: https://arxiv.org/pdf/2402.14740

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes