Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Melhorando Modelos de Linguagem com Feedback

Um novo método ajuda modelos de linguagem a aprenderem com feedback guiado.

― 6 min ler


Impulsionando LLMs com oImpulsionando LLMs com oMétodo CORGIlinguagem usando feedback estruturado.Nova abordagem melhora modelos de
Índice

Modelos de Linguagem Grande (LLMs) são como amigos falantes que às vezes esquecem as regras de um jogo. Eles conseguem escrever histórias, responder perguntas e até inventar piadas, mas quando pedimos para seguir regras específicas, podem acabar errando. Por exemplo, se você pedir para escrever uma frase com exatamente seis palavras, pode ser que eles coloquem acidentalmente sete ou oito.

Recentemente, pesquisadores descobriram que quando os LLMs recebem Feedback sobre seus erros – como quando seu amigo aponta que você não tá jogando direito – eles conseguem aprender e melhorar. Este trabalho fala sobre um novo método chamado CORGI, que ajuda esses amigos falantes a evoluírem usando o feedback de forma esperta.

Qual é o plano?

Imagina que você tem um caderno mágico que só aceita histórias que seguem certas regras. Se sua história for muito longa ou muito curta, o caderno te dá um negativo. E se a gente ensinar nossos amigos falantes a usarem esses sinais de positivo e negativo para melhorar suas histórias? É exatamente isso que estamos tentando fazer.

Criamos uma estrutura que permite que esses modelos aprendam com feedback quando tentam escrever algo. Simulando conversas entre o modelo (o gerador) e um provedor de feedback (o crítico), ajudamos o modelo a entender como criar Melhores respostas.

Como funciona?

O básico

Na nossa abordagem, damos algumas regras pro modelo – tipo “escreva uma frase com exatamente quatro palavras.” Aí, depois que ele gera uma frase, o provedor de feedback verifica. Se o modelo seguiu as regras, ele recebe uma recompensa ou um positivo. Se não, ele ouve sobre os erros que cometeu.

O objetivo é treinar o modelo pra prestar atenção no feedback que recebe durante essas conversas. O modelo pode interagir com o feedback várias vezes pra refinar sua saída, o que pode fazer uma grande diferença na sua habilidade de contar histórias.

O método CORGI

Chamamos nosso método de CORGI, que significa Geração Controlada com Aprendizado por Reforço para Interação Guiada. É um nome chique pra uma ideia simples: usar conversas divertidas pra ajudar os modelos a ficarem melhores em seguir as regras.

Durante o Treinamento, o modelo tenta gerar saídas com base nos prompts enquanto recebe feedback após cada tentativa. Se ele produz algo legal, ele é recompensado. Se ele erra, recebe dicas sobre o que pode melhorar. Esse feedback é super útil porque o modelo aprende a adaptar suas respostas com base no que ouve.

Experimentos e Resultados

Avaliando o CORGI

Testamos o CORGI em várias tarefas onde o modelo tinha que criar textos que seguissem regras específicas. A parte interessante? O modelo não só melhorou quando foi treinado nas tarefas específicas, mas também parecia transferir seu aprendizado pra novas tarefas que nunca tinha visto antes.

Imagina que você jogou um jogo algumas vezes e de repente ficou muito bom em um jogo completamente diferente! Foi isso que encontramos com o CORGI. O modelo aprendeu uma meta-habilidade – uma habilidade sobre aprender habilidades – que ajudou ele a se adaptar melhor quando enfrentava novos problemas.

O feedback faz a diferença

Nos divertimos comparando o CORGI com outros modelos. Os resultados mostraram que os modelos treinados com o CORGI foram bem melhores do que os que não receberam o benefício do feedback. É como ter um treinador apontando quando você tá fazendo algo errado, em vez de deixar você se virar sozinho!

As Tarefas

Encaramos várias tarefas diferentes pra ver como o CORGI se saía. Aqui estão algumas:

Geração de Avaliações de Sentimento

Nessa tarefa, o modelo tinha que criar avaliações pra produtos com base em uma classificação de estrelas. Se a avaliação gerada não combinasse com as estrelas exigidas, o crítico dizia onde ele errou. O feedback ajudou a guiar o modelo a produzir melhores avaliações ao longo do tempo.

Geração de Histórias

Usando prompts de um conjunto de dados, o modelo tinha a tarefa de continuar uma história de forma coerente. O feedback ajudou a evitar que ele se repetisse ou perdesse o foco da direção da história. Graças ao crítico, as histórias ficaram mais empolgantes!

Agrupamento de Estudantes

Em uma situação diferente, o modelo foi pedido pra agrupar nomes de estudantes com base nas preferências deles. O crítico apontou se os estudantes estavam colocados nos grupos errados. Esse feedback permitiu que o modelo aprendesse a agrupá-los melhor com base nos gostos e desgostos deles.

Tarefa do Panagrama

Nesse desafio, o modelo precisava criar palavras usando um conjunto específico de letras. Se ele não incluísse todas as letras ou fizesse bagunça, o crítico o alertava. A cada tentativa, o modelo aprendia a criar palavras melhores.

CommonGen Difícil

Por fim, o modelo teve que montar frases que incluíssem uma longa lista de palavras-chave. O crítico ajudou a descobrir quais palavras-chave estavam faltando e como incluí-las de forma significativa.

Treinando o Modelo

Treinamos os LLMs usando Otimização de Política Proximal (PPO), um método de aprendizado por reforço que é como dar um turbo na capacidade do modelo de aprender com feedback. Assim, ele aprendeu a melhorar em tarefas através de tentativas e erros.

Resultados e Observações

Quando olhamos os resultados dos nossos experimentos, ficamos animados em ver o CORGI superando modelos tradicionais. As lições aprendidas com o feedback realmente valeram a pena.

Treinamento Multitarefa e Meta-aprendizagem

A abordagem de treinamento multitarefa também mostrou benefícios claros. O modelo se saiu melhor em tarefas que não tinha sido especificamente treinado porque aprendeu a se adaptar a novas regras apenas entendendo o feedback que recebeu durante o processo de treinamento.

Limitações

Claro, temos que admitir que o método CORGI tem suas limitações. Por um lado, ele pode ter dificuldades com tarefas mais longas, já que o feedback fornecido é limitado em comprimento. Também é importante garantir que o feedback seja relevante – boas críticas são essenciais. Se receber feedback vago ou ruim, o aprendizado pode não ser tão eficaz.

Conclusão

Pra finalizar, o trabalho feito com o CORGI destacou a importância do feedback no treinamento de LLMs. Ao permitir que esses modelos aprendam em tempo real e se adaptem com base nas críticas, abrimos novas portas pra melhorar seu desempenho.

Direções Futuras

E agora, o que vem por aí? Bem, temos muito a explorar. Poderíamos pensar em incorporar a entrada humana no processo de treinamento pra ver como isso impacta o comportamento do modelo. Também tem potencial em examinar tarefas mais complexas que exigem não só pontuação, mas também estratégias de melhoria.

Então, à medida que modelos como o CORGI evoluem, eles não só vão ficar melhores em tarefas específicas, mas também podem se tornar mais competentes no grande jogo de gerar texto inteligente.

Fonte original

Título: Teaching Models to Improve on Tape

Resumo: Large Language Models (LLMs) often struggle when prompted to generate content under specific constraints. However, in such cases it is often easy to check whether these constraints are satisfied or violated. Recent works have shown that LLMs can benefit from such "corrective feedback". Here we claim that this skill of LLMs can be significantly enhanced via training. We introduce an RL framework for teaching models to use such rewards, by simulating interaction sessions, and rewarding the model according to its ability to satisfy the constraints. We refer to our method as CORGI (Controlled Generation with RL for Guided Interaction), and evaluate it on a variety of controlled generation tasks using unlabeled training data. We find that CORGI consistently outperforms the baseline reinforcement learning method that does not incorporate conversational feedback. Furthermore, CORGI's interactive framework enables meta-learning, allowing the LLM to generalize better to guided interaction in new tasks. Our results clearly show that conversational optimization, when combined with reinforcement learning, significantly improves the effectiveness of LLMs in controlled generation contexts.

Autores: Liat Bezalel, Eyal Orgad, Amir Globerson

Última atualização: 2024-11-06 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2411.01483

Fonte PDF: https://arxiv.org/pdf/2411.01483

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes