Rótulos de Preferência Suaves Melhoram o Treinamento de Modelos de Linguagem
Rótulos de preferência suave melhoram o alinhamento dos modelos com as escolhas humanas.
Hiroki Furuta, Kuang-Huei Lee, Shixiang Shane Gu, Yutaka Matsuo, Aleksandra Faust, Heiga Zen, Izzeddin Gur
― 6 min ler
Índice
Nos últimos anos, grandes modelos de linguagem (LLMs) têm sido bastante utilizados em várias aplicações, como chatbots, geração de conteúdo e várias outras tarefas que requerem compreensão e geração de texto parecido com o humano. No entanto, um dos principais desafios é garantir que esses modelos se alinhem de perto com as preferências humanas. Este artigo discute uma abordagem que introduz maneiras mais suaves de rotular preferências e mostra como isso pode melhorar o treinamento dos modelos.
O Problema com Preferências Binárias
A maioria dos métodos existentes para treinar LLMs assume que as preferências humanas são binárias, ou seja, classificam as saídas em "boas" ou "ruins". Embora essa abordagem seja simples, ela não capta a complexidade das opiniões humanas reais. As pessoas geralmente têm graus variados de preferência para diferentes opções, e tratar essas opiniões como binárias pode levar à perda de informações valiosas. Isso pode fazer com que os modelos não percebam as sutilezas que caracterizam as escolhas humanas.
A Necessidade de Rótulos de Preferência Suaves
Para resolver esse problema, foi introduzido o conceito de rótulos de preferência suaves. Em vez de simplesmente dizer que uma resposta é melhor ou pior que outra, rótulos suaves expressam uma gama de preferências. Por exemplo, em vez de rotular uma resposta como aceitável ou inaceitável, você pode indicar que uma resposta é preferida em relação à outra por uma certa porcentagem. Essa abordagem reflete melhor como os humanos pensam e sentem sobre diferentes saídas.
Melhorando a Otimização Direta de Preferência
A técnica conhecida como Otimização Direta de Preferência (DPO) tem sido usada para treinar modelos com essas preferências binárias. No entanto, a DPO frequentemente enfrenta dificuldades diante da complexidade das preferências humanas. Integrando rótulos de preferência suaves na DPO, podemos melhorar a forma como os modelos aprendem com o feedback.
Incorporando Médias Geométricas
Uma das ideias principais é usar médias geométricas no processo de treinamento. A média geométrica permite que pesemos a probabilidade de saída de diferentes respostas com base em seus rótulos suaves. Isso significa que, se duas respostas forem igualmente preferidas, o modelo não se comprometerá demais com uma em detrimento da outra. Em vez disso, ele pode aprender a distinguir entre as respostas de forma mais sutil, o que ajuda a evitar o sobreajuste a qualquer tipo de rótulo.
Realizando Experimentos
Para validar essas ideias, foram realizados experimentos usando vários conjuntos de dados, incluindo Reddit TL;DR e os conjuntos de dados da Anthropic Helpful e Harmless. O objetivo era ver se os modelos treinados com rótulos de preferência suaves apresentariam um desempenho melhor do que aqueles que dependiam de rótulos binários.
Resultados dos Experimentes
Os resultados foram promissores. Modelos que aplicaram rótulos de preferência suaves superaram consistentemente aqueles que dependiam apenas de rótulos binários. Particularmente, quando os dados eram dominados por rótulos modestamente confiantes, os modelos conseguiram gerar respostas que estavam mais alinhadas com as preferências humanas.
Compreendendo as Descobertas
As descobertas desses experimentos destacam a importância dos rótulos suaves na criação de modelos que podem capturar melhor as sutilezas das preferências humanas. Usar a média geométrica ajuda a criar uma abordagem mais equilibrada para a geração de respostas, minimizando a superotimização.
Abordando o Desalinhamento de Objetivos
Um problema significativo com muitos modelos anteriores era que eles não alinhavam sua geração de saída de forma próxima o suficiente com as preferências fornecidas. Mesmo que um modelo tenha um bom desempenho de acordo com o objetivo dado, ele nem sempre gerava respostas que as pessoas consideravam preferíveis. Ao usar rótulos de preferência suaves através da média geométrica, reduzimos esse desalinhamento, levando a saídas que estão mais alinhadas com o que os usuários consideram útil ou aceitável.
O Papel do Feedback de IA
Em muitos cenários, usar IA para gerar feedback para o treinamento de modelos tem vantagens sobre depender apenas de avaliadores humanos. A IA pode fornecer avaliações consistentes e escaláveis, o que pode ser mais eficiente de gerenciar. Esse feedback pode ser integrado ao processo de treinamento, fornecendo um fluxo contínuo de rótulos de preferência suaves.
Simulando Preferências Humanas com IA
Para simular preferências humanas, os pesquisadores treinaram modelos em conjuntos de dados rotulados e usaram modelos de IA como o PaLM 2-L para gerar feedback sobre as saídas. Esse processo envolveu criar prompts para a IA avaliar pares de respostas, determinando qual era mais preferível com base em vários critérios.
Distribuições de Preferência Diversificadas
Ao criar dados de treinamento para modelos, é essencial levar em conta distribuições de preferência diversificadas. Em muitos casos, conjuntos de dados podem exibir uma distribuição de cauda longa, onde algumas respostas recebem a maioria das preferências enquanto muitas outras recebem pouca ou nenhuma preferência. Gerando dados de treinamento que estão mais uniformemente distribuídos, podemos criar um conjunto mais rico de rótulos suaves que pode melhorar a compreensão das preferências subjacentes.
Abordando Vieses nas Preferências
A introdução de rótulos de preferência suaves também vem com uma ressalva. Se os rótulos gerados forem tendenciosos, isso pode levar a problemas no desempenho dos modelos. Garantir que os rótulos gerados sejam o mais imparciais possível é fundamental para criar modelos que realmente reflitam as diversas preferências humanas.
Conclusão
Incorporar rótulos de preferência suaves no treinamento de grandes modelos de linguagem cria um caminho para um melhor alinhamento com as preferências humanas. Ao avançar além de rótulos binários para representações mais sutis de escolhas, podemos criar modelos que são não apenas mais eficazes, mas também mais sintonizados com o que os usuários querem. Usar média geométrica ajuda a minimizar problemas relacionados ao sobreajuste e desalinhamento de objetivos, levando a saídas de maior qualidade.
Embora os resultados dos experimentos sejam encorajadores, ainda há trabalho a ser feito. Investigações adicionais sobre como diferentes tipos de preferências podem ser melhor representadas e integradas em processos de treinamento continuarão a aprimorar nossa compreensão e capacidade em alinhar modelos com valores humanos. Essa é uma direção importante para futuras pesquisas que contribuirão para a crescente sofisticação das tecnologias de IA e suas aplicações no mundo real.
Título: Geometric-Averaged Preference Optimization for Soft Preference Labels
Resumo: Many algorithms for aligning LLMs with human preferences assume that human preferences are binary and deterministic. However, human preferences can vary across individuals, and therefore should be represented distributionally. In this work, we introduce the distributional soft preference labels and improve Direct Preference Optimization (DPO) with a weighted geometric average of the LLM output likelihood in the loss function. This approach adjusts the scale of learning loss based on the soft labels such that the loss would approach zero when the responses are closer to equally preferred. This simple modification can be easily applied to any DPO-based methods and mitigate over-optimization and objective mismatch, which prior works suffer from. Our experiments simulate the soft preference labels with AI feedback from LLMs and demonstrate that geometric averaging consistently improves performance on standard benchmarks for alignment research. In particular, we observe more preferable responses than binary labels and significant improvements where modestly-confident labels are in the majority.
Autores: Hiroki Furuta, Kuang-Huei Lee, Shixiang Shane Gu, Yutaka Matsuo, Aleksandra Faust, Heiga Zen, Izzeddin Gur
Última atualização: 2024-12-30 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.06691
Fonte PDF: https://arxiv.org/pdf/2409.06691
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.