Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Melhorando a comunicação da IA com o ChatGLM-RLHF

O ChatGLM-RLHF melhora as interações de IA através de feedback humano e métodos de treinamento avançados.

― 6 min ler


A IA Fica MaisA IA Fica MaisInteligente com Feedbackusando input humano.ChatGLM-RLHF otimiza as respostas da IA
Índice

ChatGLM é um serviço de IA que usa tecnologia avançada pra se comunicar e entender a linguagem. Ele é baseado em uma coleção de grandes modelos de linguagem e é grátis pra usar. Esse documento fala sobre como o ChatGLM foi melhorado pra se alinhar mais com o que as pessoas querem quando interagem com ele. Um novo sistema chamado ChatGLM-RLHF foi criado. Ele usa aprendizado por reforço a partir do feedback humano, o que significa que a IA aprende com as reações das pessoas às suas respostas.

O Sistema ChatGLM-RLHF

O ChatGLM-RLHF tem três partes principais: coletar dados sobre o que as pessoas gostam, treinar um modelo de recompensa e otimizar como a IA responde com base nesses dados.

Coletando Preferências Humanas

O primeiro passo nesse sistema é reunir informações sobre o que os usuários preferem. Isso envolve obter feedback de quem usa a IA. Um método chamado comparação paritária é utilizado, onde os usuários olham para duas respostas da IA e escolhem qual eles gostam mais. Isso ajuda a garantir que os dados coletados sejam confiáveis e reflitam as verdadeiras preferências humanas.

Pra ajudar a guiar os usuários na hora de fazer essas escolhas, critérios específicos são definidos. Esses critérios analisam vários aspectos, como quão úteis, seguras e fluentes as respostas são. Assim, os usuários podem tomar decisões informadas ao selecionar qual resposta preferem.

Depois de coletar essas informações, um processo de filtragem é implementado pra eliminar respostas inconsistentes ou indesejadas. Isso garante que o conjunto de dados usado pra treinar a IA seja limpo e preciso.

Treinando o Modelo de Recompensa

Uma vez que os dados de preferência humana são coletados, o próximo passo é treinar um modelo de recompensa. Esse modelo atua como um árbitro, decidindo quais respostas estão mais alinhadas com o que os usuários realmente querem.

Durante esse processo de treinamento, são desenvolvidas técnicas pra evitar preconceitos que possam levar a avaliações injustas. Por exemplo, se os usuários tendem a preferir respostas mais longas, isso pode fazer o modelo favorecer o tamanho em vez da qualidade. Pra combater isso, um método chamado "Balanceamento de Comprimento Baseado em Balde" é introduzido, onde as respostas são agrupadas com base no seu comprimento pra garantir que a avaliação foque na qualidade da resposta e não apenas na sua extensão.

Otimizando Políticas

Com o modelo de recompensa em prática, o passo final é usá-lo pra otimizar como a IA gera respostas. Isso é feito usando algoritmos de aprendizado por reforço, que ajudam a IA a aprender a fazer melhores escolhas com base no feedback que recebe.

Nesse processo, o modelo gera respostas pra diferentes solicitações e depois usa o modelo de recompensa pra avaliar essas respostas. Isso ajuda a guiar o modelo a melhorar maximizando as recompensas que recebe por produzir respostas de alta qualidade.

Desafios Enfrentados

Construir um sistema prático como o ChatGLM-RLHF traz muitos desafios.

Preconceito nas Anotações Humanas

Um dos principais desafios é garantir que as anotações humanas coletadas pra treinamento sejam confiáveis. Preconceitos nessas anotações podem levar a erros na forma como a IA é treinada, afetando o desempenho geral.

Outro problema está relacionado à inclinação do modelo de recompensa em pegar atalhos ou padrões que não refletem verdadeiramente as preferências. Por exemplo, se o modelo aprende a favorecer respostas mais longas, ele pode não focar no que realmente torna uma resposta útil ou precisa.

Estabilidade no Treinamento

Outro desafio é manter a estabilidade durante o treinamento do modelo de recompensa. A variabilidade nas pontuações que o modelo atribui pode levar a resultados de treinamento inconsistentes. Pra mitigar isso, um novo componente de perda é introduzido pra ajudar a estabilizar o processo de treinamento, garantindo que o modelo de recompensa avalie consistentemente as respostas.

Esquecimento de Habilidades

À medida que a IA passa pelo treinamento, pode haver uma redução não intencional em sua capacidade de realizar tarefas específicas que ela lidava bem anteriormente. Esse fenômeno, conhecido como esquecimento de habilidades, pode surgir durante a transição do treinamento supervisionado para o aprendizado por reforço. Pra combater isso, o sistema incorpora a perda de predição do próximo token como um método adicional de regularização, ajudando a preservar as habilidades originais da IA.

Resultados Experimentais

A eficácia do sistema ChatGLM-RLHF é demonstrada através de experimentos que envolvem avaliações automáticas e humanas.

Melhorias Observadas

Em comparações com a iteração anterior do ChatGLM, melhorias substanciais na alineação das respostas com as preferências humanas são notadas. O modelo ChatGLM-RLHF alcançou uma média de 15% a mais de vitórias nas tarefas de alineação, destacando a eficácia da nova abordagem.

Métricas de Desempenho

Pra avaliação automática, os pesquisadores usaram uma série de avaliações pra medir quão bem a IA realizou várias tarefas. No geral, os resultados indicaram que o novo sistema conseguiu produzir respostas que não só estavam mais alinhadas com as preferências dos usuários, mas também com qualidade superior em várias áreas-chave.

Avaliação Humana

A avaliação humana revelou que os usuários acharam o novo modelo notavelmente melhor em entender instruções e fornecer respostas relevantes. Os anotadores conseguiram ver diferenças claras no desempenho entre o modelo anterior e o modelo melhorado ChatGLM-RLHF.

Conclusão

O ChatGLM-RLHF representa um passo significativo pra alinhar as respostas da IA com as preferências humanas. Através da coleta cuidadosa de feedback humano, treinamento de um modelo de recompensa eficaz e otimização das políticas de resposta, o sistema consegue produzir saídas de alta qualidade e relevantes que atendem às expectativas dos usuários.

À medida que a IA continua a evoluir, esses métodos servirão como um quadro orientador para desenvolver sistemas que possam entender e responder melhor às necessidades humanas. Ao priorizar o feedback dos usuários e abordar os desafios enfrentados durante o desenvolvimento, é possível criar uma IA que não só é inteligente, mas também genuinamente útil e alinhada com nossos valores.

Esse trabalho abre caminho pra futuros avanços na tecnologia de IA, garantindo que, à medida que a IA se torne mais capaz, ela também se sintonize mais com o que os usuários realmente desejam.

Fonte original

Título: ChatGLM-RLHF: Practices of Aligning Large Language Models with Human Feedback

Resumo: ChatGLM is a free-to-use AI service powered by the ChatGLM family of large language models (LLMs). In this paper, we present the ChatGLM-RLHF pipeline -- a reinforcement learning from human feedback (RLHF) system -- designed to enhance ChatGLM's alignment with human preferences. ChatGLM-RLHF encompasses three major components: the collection of human preference data, the training of the reward model, and the optimization of policies. Throughout the process of integrating ChatGLM-RLHF into production, we encountered and addressed several unprecedented challenges. We introduce the strategies to mitigate reward variance for stabilized large-scale training, implement model parallelism with fused gradient-descent, and design regularization constraints to avoid catastrophic forgetting in LLMs. Experiments show that ChatGLM-RLHF brings significant improvements in alignment tasks compared to the supervised fine-tuned (SFT) version of ChatGLM. For instance, it achieves on average 15\% more wins against ChatGLM-SFT in Chinese alignment tasks. The work presents our practices of aligning LLMs with human preferences, offering insights into the challenges and solutions in RLHF implementations.

Autores: Zhenyu Hou, Yilin Niu, Zhengxiao Du, Xiaohan Zhang, Xiao Liu, Aohan Zeng, Qinkai Zheng, Minlie Huang, Hongning Wang, Jie Tang, Yuxiao Dong

Última atualização: 2024-04-03 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2404.00934

Fonte PDF: https://arxiv.org/pdf/2404.00934

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes