Apresentando a Otimização de Triple Preferência para LLMs
A TPO oferece um novo método pra alinhar modelos de linguagem com as preferências humanas de forma eficiente.
― 7 min ler
Índice
Modelos de Linguagem Grande (LLMs) são ferramentas poderosas usadas pra várias tarefas, mas fazer com que eles se alinhem às preferências e expectativas humanas pode ser complicado. Recentemente, um método chamado Otimização de Preferências Diretas (DPO) surgiu como uma forma de encarar esse desafio sem usar Aprendizado por Reforço (RL). O DPO mostrou melhor estabilidade e escalabilidade do que os métodos tradicionais de RL, mas ainda precisa de muitos dados pra criar um modelo sólido e adiciona etapas extras no processo de treinamento.
Neste trabalho, apresentamos um novo método chamado Otimização de Preferências Triplas (TPO). Esse método tem a intenção de alinhar os LLMs considerando três preferências ao mesmo tempo, sem precisar daquela etapa extra de Ajuste Fino Supervisionado. Além disso, o TPO requer bem menos dados pra funcionar de forma eficaz.
O que faz o TPO ser diferente?
O TPO combina duas etapas de treinamento em uma só. Métodos tradicionais geralmente têm uma etapa onde um modelo é primeiro treinado com dados humanos (Ajuste Fino Supervisionado, ou SFT) e depois ajustado novamente com base nas preferências. O TPO, por outro lado, junta as duas etapas usando menos dados, emparelhando entradas com três respostas: uma resposta padrão, uma resposta preferida e uma resposta menos preferida. Essa abordagem de uma única etapa pode melhorar o Desempenho e tornar o treinamento mais eficiente.
Nos nossos experimentos usando os modelos Phi-2 e Mistral com um conjunto de dados chamado UltraFeedback, descobrimos que o TPO supera outros métodos como SFT, DPO e outros em vários benchmarks. Especificamente, ele alcançou pontuações melhores e mostrou maior precisão.
Entendendo os desafios
Os LLMs são treinados em uma ampla variedade de tarefas, mostrando sua versatilidade. No entanto, às vezes eles geram resultados que podem não alinhar com as expectativas humanas, como textos prejudiciais ou tóxicos. Essa inconsistência destaca a necessidade de alinhamento entre os modelos e as preferências humanas, focando em utilidade, honestidade e segurança.
SFT é uma forma de conseguir isso treinando um modelo com dados escritos por humanos, mas vem com limitações. O modelo fica exposto apenas às "respostas certas", perdendo várias outras possibilidades. Isso pode limitar seu desempenho em tarefas onde uma gama mais ampla de respostas é útil.
Outra abordagem popular é o Aprendizado por Reforço com Feedback Humano (RLHF), que tenta otimizar modelos com base em recompensas. No entanto, esse método pode ser instável e está sujeito a problemas como "hacks de recompensa", onde o modelo encontra atalhos pra maximizar sua pontuação.
DPO surgiu como uma alternativa, evitando algumas armadilhas do RLHF ao otimizar diretamente as preferências. No entanto, ele ainda tem suas limitações, incluindo dependência excessiva do SFT e a possibilidade de sobreajustar os dados.
Apresentando a Otimização de Preferências Triplas
O TPO tem o objetivo de superar as limitações dos métodos existentes, simplificando o processo de alinhamento em uma única etapa. Em vez de exigir uma fase de SFT separada, o TPO otimiza um modelo com base nas preferências humanas diretamente, utilizando três respostas para cada entrada. Isso significa que ele pode treinar de forma mais eficiente com menos dados.
Os dados usados para o TPO combinam três tipos de respostas: a resposta padrão, que é a resposta ideal; a resposta preferida, que é considerada a próxima melhor opção; e a resposta menos preferida, que é a resposta menos desejada. Usando todas as três em uma única fase de treinamento, o TPO pode melhorar tanto o alinhamento quanto o processo de aprendizado.
Até agora, nossos experimentos mostram que o TPO oferece resultados impressionantes em comparação com outras técnicas de alinhamento. Especialmente notável é sua capacidade de alcançar alto desempenho com conjuntos de dados muito menores. Por exemplo, ao usar apenas 10.000 pontos de dados, nosso método superou outros modelos que foram treinados com 200.000 pontos de dados.
Entendendo as bases teóricas
A base teórica do TPO é influenciada por ideias do modelo Bradley-Terry, que é frequentemente usado em modelos de classificação e baseados em preferências. O TPO considera como otimizar a probabilidade da resposta padrão enquanto também leva em conta as preferências. Basicamente, é sobre equilibrar o foco na resposta ideal e nas respostas preferidas, enquanto evita uma sobrecarga de dados.
Um aspecto importante é que o TPO se baseia em estratégias existentes como o Aprendizado por Reforço com Máxima Entropia (MERL), que trabalha pra maximizar a aleatoriedade dos resultados enquanto ainda recompensa as respostas preferidas. Isso resulta em um modelo que pode aprender de forma eficaz sem cair nas armadilhas que os métodos anteriores enfrentaram.
Ao usar o TPO, criamos um sistema que considera múltiplos objetivos ao mesmo tempo. O objetivo é gerar uma política que se alinha de perto com as preferências humanas. Isso torna possível otimizar o desempenho de forma mais holística.
Insights Experimentais
Pra avaliar o TPO, realizamos vários experimentos usando benchmarks estabelecidos. Comparamos modelos ajustados com TPO contra outros que usaram SFT, DPO, KTO, IPO, CPO e ORPO. Os resultados mostraram uma clara vantagem pro TPO, especialmente em áreas que exigem compreensão e respostas sutis.
Avaliamos o desempenho dos modelos sob várias condições, experimentando diferentes configurações de hiper-parâmetros, tamanhos de lote e a quantidade de dados usados. Nossas descobertas indicaram que os valores dos hiper-parâmetros afetam significativamente o desempenho, e a escolha dos tamanhos de lote desempenha um papel crucial em alcançar resultados ótimos.
Ao avaliar o método TPO contra outras estratégias de alinhamento em diferentes benchmarks, ele consistentemente se destacou em um nível mais alto. Isso valida a eficiência e a eficácia do TPO como uma opção viável pra treinar LLMs de uma forma que se alinha com as preferências humanas.
Olhando pro Futuro
Embora o TPO mostre grande potencial, ainda há desafios a serem enfrentados. Um dos principais problemas é que ele requer uma configuração cuidadosa pra criar três preferências pra cada entrada de treinamento. Isso pode complicar o processo de treinamento. Trabalhos futuros podem focar em maneiras de simplificar isso, possivelmente automatizando a geração de respostas preferidas.
Além disso, nossa pesquisa até agora se concentrou principalmente em tarefas de chat e conversação. Expandir a aplicação do TPO pra outras áreas, como tarefas de raciocínio e considerações de segurança, pode revelar mais benefícios e melhorias.
Investigar como diferentes qualidades das respostas afetam o desempenho do TPO pode render insights valiosos. Por exemplo, examinar se uma distinção maior entre respostas preferidas e menos preferidas leva a melhores resultados pode proporcionar uma compreensão mais profunda de como refinar o método.
Além disso, testar o TPO em modelos de linguagem maiores pode abrir novas avenidas para sua aplicação. O potencial pra uma implementação mais ampla convida a uma exploração adicional de suas capacidades e eficácia.
Conclusão
Em resumo, a Otimização de Preferências Triplas apresenta uma nova abordagem pra alinhar Modelos de Linguagem Grande com as tendências humanas. Ao combinar múltiplas etapas de treinamento em uma, o TPO reduz efetivamente a quantidade de dados necessários enquanto melhora o desempenho em várias tarefas.
Através de experimentos abrangentes, o TPO demonstrou sua capacidade de superar métodos tradicionais, abrindo caminho pra técnicas de treinamento mais eficientes e eficazes no campo da inteligência artificial. À medida que o TPO continua a se desenvolver, pode se tornar uma ferramenta chave pra garantir que os modelos de linguagem reflitam melhor os valores e preferências humanas em suas saídas.
Título: Triple Preference Optimization: Achieving Better Alignment with Less Data in a Single Step Optimization
Resumo: Large Language Models (LLMs) perform well across diverse tasks, but aligning them with human demonstrations is challenging. Recently, Reinforcement Learning (RL)-free methods like Direct Preference Optimization (DPO) have emerged, offering improved stability and scalability while retaining competitive performance relative to RL-based methods. However, while RL-free methods deliver satisfactory performance, they require significant data to develop a robust Supervised Fine-Tuned (SFT) model and an additional step to fine-tune this model on a preference dataset, which constrains their utility and scalability. In this paper, we introduce Triple Preference Optimization (TPO), a new preference learning method designed to align an LLM with three preferences without requiring a separate SFT step and using considerably less data. Through a combination of practical experiments and theoretical analysis, we show the efficacy of TPO as a single-step alignment strategy. Specifically, we fine-tuned the Phi-2 (2.7B) and Mistral (7B) models using TPO directly on the UltraFeedback dataset, achieving superior results compared to models aligned through other methods such as SFT, DPO, KTO, IPO, CPO, and ORPO. Moreover, the performance of TPO without the SFT component led to notable improvements in the MT-Bench score, with increases of +1.27 and +0.63 over SFT and DPO, respectively. Additionally, TPO showed higher average accuracy, surpassing DPO and SFT by 4.2% and 4.97% on the Open LLM Leaderboard benchmarks. Our code is publicly available at https://github.com/sahsaeedi/triple-preference-optimization .
Autores: Amir Saeidi, Shivanshu Verma, Aswin RRV, Chitta Baral
Última atualização: 2024-05-26 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2405.16681
Fonte PDF: https://arxiv.org/pdf/2405.16681
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.