Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Alinhando Modelos de Linguagem com as Preferências dos Usuários

Um novo método pra treinar modelos que se encaixem melhor nas expectativas dos usuários.

― 8 min ler


Treinando Modelos para asTreinando Modelos para asNecessidades dos Usuáriosas preferências dos usuários.Uma nova abordagem pra alinhar a IA com
Índice

Modelos de linguagem (MLs) são ferramentas que conseguem gerar texto com base no que a gente alimenta neles. Eles ajudam a escrever, responder perguntas, resumir informações e muito mais. Uma tarefa importante é alinhar esses modelos de linguagem com o que os usuários preferem. Isso significa garantir que, quando o modelo gera texto, esse texto atenda às expectativas e preferências das pessoas que estão usando.

Mas tem um problema complicado que enfrentamos. As preferências geralmente são fornecidas em um nível mais amplo, para frases inteiras ou parágrafos, enquanto os modelos trabalham em um nível menor, focando em palavras ou tokens individuais. Essa diferença de foco pode dificultar a melhoria dos modelos com base no feedback dos usuários.

Nesse artigo, vamos explicar como podemos alinhar melhor os modelos de linguagem com as preferências dos usuários, mudando a forma como os treinamos. Vamos descrever um novo método que conecta o feedback mais amplo sobre preferências com os passos menores que o modelo dá ao gerar texto.

O Problema

Quando os usuários avaliam o texto gerado por um Modelo de Linguagem, eles normalmente pensam no todo: esse texto faz sentido como um todo? Eles podem comparar dois textos maiores e dizer qual é melhor. No entanto, os modelos aprendem a gerar texto olhando para partes menores, token por token. Essa diferença de foco pode criar desafios na hora de treinar os modelos de forma eficaz.

Esse problema é semelhante ao que acontece em jogos onde o feedback vem no final, e não durante o jogo. Em um jogo típico de treinamento, se as ações de um jogador só recebem feedback depois que ele termina, fica difícil para ele saber o que fez certo ou errado. Da mesma forma, quando os modelos de linguagem só recebem feedback sobre o texto final e não sobre cada parte, isso pode confundi-los durante o treinamento.

Muitos métodos atuais tentam ajustar os modelos de linguagem com base na preferência do usuário adicionando regras ou filtros externos. No entanto, esses métodos nem sempre funcionam bem porque não se alinham com a forma como o modelo processa as informações.

Uma Nova Abordagem

Para resolver esse problema, propomos um novo método de treinamento que criará um sistema de orientação. Essa abordagem vai conectar as preferências dos usuários, fornecidas em um nível mais amplo, com o treinamento passo a passo do modelo, que foca em tokens.

Nosso método envolve duas etapas principais:

  1. Aprendendo a Orientar: Vamos criar um sistema que traduza as preferências dos usuários em orientações a nível de token. Isso significa que para cada palavra que o modelo gera, ele terá uma ideia mais clara de como escolher a melhor palavra seguinte com base no que os usuários querem.

  2. Treinando o Modelo de Linguagem: Depois de aprender essa orientação, vamos treinar o modelo de linguagem usando a nova orientação. Vamos ajustar o modelo passo a passo enquanto ele gera texto para garantir que ele siga as preferências dos usuários.

Aprendendo a Orientação a Nível de Token

Na nossa primeira etapa, focamos em entender como orientar o modelo de linguagem de forma eficaz. Vamos olhar para vários textos gerados e ver quais os usuários preferem no geral. Em vez de apenas pedir que escolham entre duas opções, vamos reunir uma lista de vários textos e ver a ordem em que eles os preferem.

Vamos desenvolver uma maneira de atribuir pontuações a tokens individuais com base nessa ordem de preferência. Por exemplo, se um texto é mais gostado do que outro, precisamos recompensar as palavras que contribuíram para essa preferência. Essa pontuação nos dá uma ideia mais clara do que torna um texto preferido.

O uso de um sistema de pontuação nos permite capturar a ideia de que algumas palavras são mais importantes do que outras para tornar o texto atraente. Isso significa que a orientação que fornecemos vai se concentrar nas palavras mais impactantes em vez de tratar cada palavra igualmente.

Treinando o Modelo de Linguagem

Uma vez que temos um bom sistema de pontuação em prática, o próximo passo é treinar o modelo de linguagem. Queremos usar a orientação que aprendemos para ajudar o modelo a fazer melhores escolhas.

Dois Métodos de Treinamento

Vamos apresentar duas abordagens para treinar o modelo de linguagem:

  1. Sem Dados Supervisionados: Quando não temos exemplos específicos para aprender, podemos usar a orientação a nível de token que desenvolvemos. O modelo vai gerar texto com base em uma ideia inicial e ajustará suas escolhas com base nas pontuações atribuídas a cada palavra. Assim, o modelo aprende a partir do seu próprio processo de geração.

  2. Com Dados Supervisionados: Quando temos exemplos de como um bom texto deve ser, podemos melhorar o aprendizado pesando o treinamento do modelo em direção aos tokens mais importantes, conforme indicado pelo nosso sistema de pontuação. Isso ajuda o modelo a focar nas palavras mais relevantes enquanto aprende com exemplos rotulados.

Avaliação e Resultados

Testamos nosso novo método em duas tarefas importantes: gerar prompts para classificação e resumir textos. Em ambos os casos, queríamos ver se nosso método poderia ajudar o modelo a ter um desempenho melhor em comparação com métodos existentes.

Tarefa de Geração de Prompts

Na primeira tarefa, usamos nosso método para gerar prompts para classificar textos. O objetivo era gerar frases que direcionassem um modelo de linguagem a classificar textos recebidos de forma precisa. Queríamos garantir que os prompts criados fossem relevantes e eficazes.

Através de testes em diversos conjuntos de dados, nosso método mostrou uma precisão competitiva em todos os testes. Notamos que nosso modelo gerou prompts que eram não só eficazes, mas também alinhados de perto com as preferências dos usuários. O uso de pontuação para tokens importantes ajudou na criação de prompts mais significativos.

Tarefa de Resumir Textos

Na segunda tarefa, aplicamos nosso método para resumir textos. Aqui, o objetivo era pegar longos artigos ou documentos e destilá-los em resumos mais curtos e digeríveis, atingindo os pontos-chave.

Novamente, nosso método se saiu bem. Os resumos gerados usando nossa técnica refletiram informações de alta qualidade, com pontuações mostrando que atenderam efetivamente às preferências dos usuários.

Os Benefícios do Nosso Método

As vantagens do nosso método são significativas. Ao conectar preferências mais amplas diretamente ao treinamento passo a passo dos modelos de linguagem, conseguimos fornecer uma orientação mais útil. Isso leva a vários benefícios principais:

  • Melhor Alinhamento com as Preferências dos Usuários: Nossa abordagem permite uma conexão mais clara entre o feedback dos usuários e as decisões do modelo. Isso resulta em saídas que combinam melhor com o que os usuários querem.

  • Desempenho Aprimorado com Dados Limitados: A capacidade de aprender com exemplos limitados e ainda produzir saídas de qualidade é uma vantagem crucial, principalmente em casos onde coletar grandes conjuntos de dados é desafiador.

  • Flexibilidade no Aprendizado: Nossos dois métodos de treinamento - um que funciona sem exemplos e outro que funciona com - significam que nossa abordagem pode ser adaptada a vários cenários e necessidades.

Trabalho Futuro

Quando olhamos para o futuro, há várias possibilidades empolgantes para construir sobre esse trabalho. Queremos refinar ainda mais nossos métodos, analisando como podemos incorporar tipos adicionais de feedback dos usuários.

Também esperamos combinar nossa abordagem com métodos de aprendizado por reforço, o que permitiria possibilidades de treinamento ainda mais dinâmicas.

Além disso, aplicar nosso método a outras tarefas, como sistemas de diálogo, poderia abrir novas possibilidades para tornar os modelos de linguagem mais interativos e amigáveis ao usuário.

Conclusão

Resumindo, apresentamos uma nova maneira de alinhar modelos de linguagem com as preferências dos usuários através de um novo processo de treinamento. Focando em unir o feedback de alto nível com as escolhas detalhadas de tokens, podemos criar modelos que entendem e respondem melhor ao que os usuários querem.

Essa abordagem não só melhora a qualidade da geração de texto, mas também oferece uma estrutura flexível que pode ser adaptada a várias aplicações na área de processamento de linguagem natural. Avançando, estamos animados com as potenciais melhorias e adaptações que podem ser feitas usando essa base.

Fonte original

Título: Preference-grounded Token-level Guidance for Language Model Fine-tuning

Resumo: Aligning language models (LMs) with preferences is an important problem in natural language generation. A key challenge is that preferences are typically provided at the *sequence level* while LM training and generation both occur at the *token level*. There is, therefore, a *granularity mismatch* between the preference and the LM training losses, which may complicate the learning problem. In this paper, we address this issue by developing an alternate training process, where we iterate between grounding the sequence-level preference into token-level training guidance, and improving the LM with the learned guidance. For guidance learning, we design a framework that extends the pairwise-preference learning in imitation learning to both variable-length LM generation and the utilization of the preference among multiple generations. For LM training, based on the amount of supervised data, we present two *minimalist* learning objectives that utilize the learned guidance. In experiments, our method performs competitively on two distinct representative LM tasks -- discrete-prompt generation and text summarization.

Autores: Shentao Yang, Shujian Zhang, Congying Xia, Yihao Feng, Caiming Xiong, Mingyuan Zhou

Última atualização: 2023-10-09 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.00398

Fonte PDF: https://arxiv.org/pdf/2306.00398

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes