Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Aprendizagem de máquinas

Melhorando Modelos de Linguagem com Cabeças de Preferência Direta

Uma nova abordagem melhora os modelos de linguagem ao focar nas preferências humanas na geração de texto.

― 10 min ler


Avançando Modelos deAvançando Modelos deLinguagem com DPHhumano.linguagem com feedback focado noDPH melhora o desempenho do modelo de
Índice

Modelos de linguagem mostraram um grande potencial em entender e gerar textos parecidos com os humanos. Mas controlar o comportamento deles ainda é um desafio. Uma maneira de melhorar o desempenho é através do Aprendizado por Reforço com Feedback Humano (RLHF), que ajuda os modelos a seguirem melhor as instruções humanas. Mas esse método também pode causar problemas, como o modelo inventando informações ou perdendo algumas habilidades de raciocínio. Pra resolver essas questões, foi introduzida uma nova abordagem chamada Direct Preference Heads (DPH). Esse método ajuda o modelo a aprender com as preferências humanas sem mudar diretamente a forma como gera texto.

Contexto

Modelos de linguagem pré-treinados são bons em entender contexto e aprender com exemplos. Ainda assim, suas saídas às vezes podem ser pouco confiáveis ou irrelevantes pro input dado. O RLHF é uma maneira de treinar esses modelos usando feedback das pessoas pra ajustar as respostas. Apesar de suas vantagens, o RLHF pode prejudicar a habilidade do modelo de pensar logicamente ou levar à geração de informações erradas.

Pra melhorar a situação, o DPH permite que os modelos aprendam o que os humanos preferem através de um sistema de recompensas. Diferente dos métodos normais que ajustam o funcionamento central do modelo, o DPH foca nas recompensas atribuídas às respostas depois que elas são geradas, tornando mais fácil manter as habilidades de raciocínio do modelo.

Abordagens Anteriores

Antes do DPH, modelos de linguagem geralmente eram treinados otimizando diretamente suas probabilidades de saída. O RLHF normalmente envolve três etapas principais: ajustar o modelo, coletar feedback sobre suas respostas e depois ajustar o modelo com base nesse feedback. Durante o ajuste, o modelo aprende a partir de exemplos de boa qualidade. Depois disso, o modelo gera respostas que são avaliadas por pessoas. Finalmente, as preferências aprendidas orientam os ajustes no modelo.

Em contraste, a Otimização de Preferências Diretas (DPO) simplifica esse processo usando diretamente pares de respostas boas e ruins, sem precisar das etapas extras do RLHF. Isso leva a um treinamento mais rápido e estável, focando em melhorar o desempenho do modelo.

Introduzindo Direct Preference Heads (DPH)

A ideia principal por trás do DPH é que os modelos de linguagem têm a capacidade de avaliar suas próprias saídas e atribuir recompensas. O DPH usa essa capacidade pra melhorar a qualidade do texto gerado. Ele utiliza uma "cabeça de recompensa", que leva em conta vários estados internos do modelo pra calcular quão boa uma resposta é. Isso permite uma maneira mais eficiente de avaliar as respostas candidatas durante o processo de saída do modelo.

A cabeça de recompensa é construída usando três componentes principais: a saída do modelo, um método pra processar essa saída e um vetor aprendível que ajuda a avaliar as recompensas. Diferentes abordagens são adotadas pra criar a função de agrupamento que transforma a saída do modelo em scores de recompensa.

Funções Objetivo

Existem duas maneiras principais de estruturar as funções objetivo pro DPH. A primeira é a objetiva separável, que maximiza recompensas pra respostas preferidas enquanto minimiza as para saídas menos preferidas. A segunda é a objetiva contrastiva, que foca em maximizar a diferença entre as melhores respostas e as menos favoráveis. Ambas as objetivas visam alcançar um forte equilíbrio na forma como o modelo avalia suas saídas.

Através de uma análise cuidadosa dessas objetivas, descobrimos que ambas levam a resultados positivos no treinamento, permitindo que o modelo reflita melhor as preferências humanas.

Aplicação Prática do DPH

O DPH foi testado usando várias tarefas de compreensão de linguagem. Essas tarefas incluem avaliações gerais de compreensão e avaliações de raciocínio comum. A eficácia do DPH foi comparada com outras técnicas, mostrando que ele alcança notas mais altas do que os métodos tradicionais.

Na prática, o DPH permite que os modelos façam algumas autoavaliações durante a fase de geração de saída. Isso significa que, pra selecionar a resposta mais adequada, o modelo usa os scores que dá a diferentes saídas com base na sua compreensão das preferências humanas.

Conjuntos de Dados e Avaliação

Pra avaliar adequadamente a eficácia do DPH, vários conjuntos de dados pra treinamento e avaliação foram utilizados. As métricas mais notáveis pra avaliação incluem compreensão de linguagem, raciocínio comum e compreensão de leitura.

Pra compreensão de linguagem, foi usado o benchmark GLUE. Pra tarefas de raciocínio comum, uma mistura de conjuntos de dados foi utilizada. A compreensão de leitura foi avaliada usando tarefas específicas de múltipla escolha que requerem raciocínio com base no texto fornecido.

Os resultados indicaram que modelos treinados com DPH consistentemente se saíram melhor do que aqueles treinados com outros métodos, demonstrando a força dessa nova abordagem.

Processo de Treinamento

O processo de treinamento pro DPH envolve três etapas principais: extensão do vocabulário, fine-tuning supervisionado e alinhamento do modelo com o DPH. Cada etapa é projetada pra melhorar a capacidade do modelo de processar e gerar texto.

Na primeira etapa, o modelo aprende a lidar com novos tokens, particularmente aqueles usados em sistemas de conversação. A segunda etapa foca em ajustar o modelo com dados de alta qualidade relevantes pra várias tarefas. Finalmente, a terceira etapa envolve alinhar as saídas do modelo usando DPH, garantindo que ele produza respostas que melhor correspondam às preferências humanas enquanto preserva suas habilidades de raciocínio.

Regularização e Otimização

Pra garantir o processo de aprendizado mais eficiente, técnicas de regularização são aplicadas durante o treinamento. O objetivo é evitar que o modelo esqueça as habilidades que aprendeu durante o treinamento inicial enquanto também melhora suas capacidades de avaliação de recompensas.

Uma metodologia eficaz de regularização é baseada na ideia de que os parâmetros ajustados devem permanecer próximos aos seus valores originais. Isso ajuda a manter o conhecimento do modelo enquanto ainda permite que ele aprenda novas habilidades pra otimizar seu desempenho com o DPH.

Requisitos Computacionais

O treinamento de modelos usando DPH foi realizado com GPUs avançadas, garantindo que o processo permanecesse eficiente. Cada etapa do treinamento levou um período específico de tempo, com a extensão do vocabulário inicial levando cerca de nove horas, o fine-tuning supervisionado cerca de dezesseis horas e o alinhamento do DPH requerendo um total de quarenta e seis horas.

No total, o tempo computacional de todos os esforços de treinamento foi de aproximadamente 270 horas, ressaltando a natureza intensiva em recursos do desenvolvimento de modelos de linguagem robustos.

Metodologia de Avaliação

Pra avaliação, foram usadas várias tarefas pra medir as capacidades do modelo em diferentes domínios. Resultados foram coletados de conjuntos de testes padrão pra compreensão de linguagem, raciocínio comum e compreensão de leitura. Comparando as saídas de modelos treinados com DPH e métodos mais tradicionais, ficou evidente que o DPH ofereceu melhorias significativas.

Diversas métricas foram acompanhadas pra avaliar o desempenho, garantindo que as comparações entre os modelos fossem justas e consistentes.

Resultados e Descobertas

Os resultados das avaliações do DPH mostraram melhorias marcantes em várias tarefas. Notavelmente, o modelo demonstrou um desempenho melhor em compreensão de linguagem comparado a outros do campo. Ele conseguiu atingir scores médios mais altos em testes enquanto mantinha um excelente desempenho em tarefas individuais.

No raciocínio comum, modelos usando DPH conseguiram superar outros, mesmo aqueles com mais parâmetros, destacando a eficácia dessa abordagem. Em tarefas de compreensão de leitura, modelos treinados com DPH também mostraram uma melhor precisão em comparação com a concorrência.

Avaliações semelhantes foram feitas para diferentes funções objetivas e escolhas de cabeçotes de agrupamento, indicando que combinações específicas funcionaram melhor pra tarefas particulares. Como resultado, a função de agrupamento SwiGLU junto com a função objetiva separável se destacou como uma combinação de forte desempenho.

Melhorias Específicas de Tarefa

Ao congelar os parâmetros do modelo enquanto permitia o aprendizado de cabeçotes específicos de tarefa, foi possível otimizar ainda mais o modelo de linguagem. Isso resultou em melhorias distintas pra diferentes tipos de tarefa, confirmando a flexibilidade e adaptabilidade do DPH.

Além disso, o DPH conseguiu melhorar scores significativamente em certas tarefas, indicando um forte sinal de aprendizado dos conjuntos de treinamento escolhidos.

Análise do Comportamento do Modelo

Investigações adicionais foram realizadas pra ver como o DPH se comporta quando aplicado a modelos congelados existentes. Essas explorações revelaram que, embora o DPH consistentemente alcançasse melhores scores, o desempenho poderia variar significativamente com base no tamanho do modelo e nas tarefas de treinamento usadas.

Modelos menores mostraram quedas de desempenho mais dramáticas ao usar métodos de alinhamento, enquanto modelos maiores tendiam a manter a estabilidade. Essas informações são críticas pra entender os impactos do tamanho do modelo no processo de treinamento.

Direções Futuras

As descobertas do DPH indicam caminhos potenciais pra futuras pesquisas. O DPH mostrou a capacidade de aprender e atribuir sinais de recompensa úteis. Isso abre portas pra recursos mais avançados, como avaliar a ajuda de uma resposta ou até mesmo sua criatividade.

Trabalhos futuros podem focar em expandir ainda mais o conjunto de dados, introduzir feedback mais sutil e integrar o DPH em aplicações do mundo real. O objetivo seria melhorar a segurança e a confiabilidade geral dos modelos de linguagem, reforçando suas capacidades em entender a intenção humana.

Impactos Mais Amplos

Embora o DPH sirva como uma ferramenta promissora pra melhorar modelos de linguagem, é essencial reconhecer as limitações que persistem. Nenhum modelo pode garantir saídas completamente precisas ou seguras. À medida que os modelos se tornam mais ajustados, ainda existe o risco de gerar conteúdo nocivo ou incorreto.

Pra mitigar esses riscos, o DPH deve ser usado em conjunto com outras medidas de segurança. Isso ajudará a fornecer um sistema mais robusto que busca minimizar saídas indesejadas enquanto maximiza o desempenho.

Conclusão

Em resumo, os Direct Preference Heads representam um avanço significativo no campo da modelagem de linguagem. Focando nas preferências humanas durante a fase de saída, o DPH melhora as capacidades dos modelos de linguagem enquanto preserva suas habilidades de raciocínio. Os resultados de várias avaliações confirmam que os modelos treinados com DPH consistentemente superam métodos tradicionais, destacando a importância de abordagens inovadoras no desenvolvimento contínuo de sistemas de IA.

Fonte original

Título: Would I Lie To You? Inference Time Alignment of Language Models using Direct Preference Heads

Resumo: Pre-trained Language Models (LMs) exhibit strong zero-shot and in-context learning capabilities; however, their behaviors are often difficult to control. By utilizing Reinforcement Learning from Human Feedback (RLHF), it is possible to fine-tune unsupervised LMs to follow instructions and produce outputs that reflect human preferences. Despite its benefits, RLHF has been shown to potentially harm a language model's reasoning capabilities and introduce artifacts such as hallucinations where the model may fabricate facts. To address this issue we introduce Direct Preference Heads (DPH), a fine-tuning framework that enables LMs to learn human preference signals through an auxiliary reward head without directly affecting the output distribution of the language modeling head. We perform a theoretical analysis of our objective function and find strong ties to Conservative Direct Preference Optimization (cDPO). Finally we evaluate our models on GLUE, RACE, and the GPT4All evaluation suite and demonstrate that our method produces models which achieve higher scores than those fine-tuned with Supervised Fine-Tuning (SFT) or Direct Preference Optimization (DPO) alone.

Autores: Avelina Asada Hadji-Kyriacou, Ognjen Arandjelovic

Última atualização: 2024-05-30 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.20053

Fonte PDF: https://arxiv.org/pdf/2405.20053

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes