Apresentando a família de modelos Nemotron-4 340B
A família Nemotron-4 340B oferece modelos poderosos para aplicações diversas e geração de dados sintéticos.
― 8 min ler
Índice
- Visão Geral de Desempenho
- Detalhes dos Modelos
- Dados de Treinamento e Processo
- Modelo de Recompensa
- Avaliação e Comparação
- Aplicação da Geração de Dados Sintéticos
- Pipeline de Geração de Dados Sintéticos
- Foco no Desenvolvimento Responsável
- Resumo das Contribuições
- Detalhes de Treinamento e Arquitetura
- Processo de Treinamento Contínuo
- Avaliação do Modelo Base
- Detalhes do Modelo de Recompensa
- Gerando Prompts Sintéticos
- Geração de Diálogo para Treinamento
- Construindo Conjuntos de Dados de Preferências
- Processo de Melhoria Iterativa
- Incorporando Fontes de Dados Adicionais
- Algoritmos de Alinhamento
- Abordagem de Ajuste Fino Supervisionado
- Estratégia de Ajuste Fino de Preferência
- Métricas de Avaliação
- Processo de Avaliação Humana
- Avaliações e Medidas de Segurança
- Conclusão e Direções Futuras
- Fonte original
- Ligações de referência
Estamos empolgados em apresentar a família de modelos Nemotron-4 340B. Isso inclui vários modelos projetados para diferentes aplicações. Esses modelos estão disponíveis para todos usarem livremente sob o Acordo de Licença de Modelos Abertos da NVIDIA, que permite compartilhar, modificar e usar os modelos e seus resultados.
Visão Geral de Desempenho
Os modelos Nemotron-4 340B têm um bom desempenho em comparação com outros modelos de acesso aberto em muitos testes. Eles foram projetados para rodar de forma eficiente em um único sistema DGX H100 com 8 GPUs usando precisão FP8. Acreditamos que esses modelos podem ajudar pesquisadores e empresas, especialmente na criação de Dados Sintéticos para treinar modelos de linguagem menores. Notavelmente, mais de 98% dos dados que usamos para alinhar nosso modelo foram produzidos sinteticamente, o que mostra o quão eficazes esses modelos são na geração de dados.
Além disso, estamos tornando público o processo de geração de dados sintéticos que usamos para o alinhamento do nosso modelo. Isso vai ajudar a fomentar mais pesquisa e desenvolvimento.
Detalhes dos Modelos
Os modelos da família Nemotron-4 340B incluem:
- Nemotron-4-340B-Base
- Nemotron-4-340B-Instruct
- Nemotron-4-340B-Reward
Você pode acessar esses modelos e o código relacionado em várias plataformas. Os modelos são feitos para serem altamente eficazes em várias tarefas em múltiplas aplicações.
Dados de Treinamento e Processo
Esforços recentes na área se concentraram em melhorar a precisão do modelo usando mais dados e dados de maior qualidade. O modelo base Nemotron-4 340B foi treinado usando 9 trilhões de tokens de um conjunto de dados de alta qualidade.
Para garantir que o modelo pudesse seguir instruções melhor e engajar em conversas efetivas, o alinhamos usando dois processos principais: Ajuste Fino Supervisionado (SFT) e Ajuste Fino de Preferência (que inclui Aprendizado por Reforço com Feedback Humano). Esses processos permitem que o modelo execute tarefas de forma mais eficaz.
Modelo de Recompensa
Nosso modelo de recompensa é uma parte importante do alinhamento, pois ajuda a avaliar a qualidade das respostas. Ele também pode ajudar a filtrar dados e classificar preferências durante a geração de dados sintéticos. O modelo foi treinado usando um conjunto de dados que envolveu 10.000 exemplos de preferências humanas, que também tornamos públicos.
Avaliação e Comparação
Comparamos nossos modelos com outros modelos bem conhecidos como Llama-3 e Qwen-2. Os resultados mostraram que os modelos Nemotron-4 tiveram um desempenho competitivo em várias tarefas, especialmente em aquelas que exigiam raciocínio lógico e seguir instruções.
Aplicação da Geração de Dados Sintéticos
Uma das principais utilizações desses modelos é na geração de dados sintéticos. Isso é especialmente útil para melhorar a qualidade dos dados durante o pré-treinamento. Os dados sintéticos podem ser usados em várias áreas, como resumir textos da web ou gerar dados para domínios sub-representados no conjunto de treinamento.
Além disso, como coletar dados anotados por humanos é caro e demorado, nosso modelo depende bastante de dados sintéticos. Mais de 98% dos dados usados no processo de alinhamento foram gerados sinteticamente.
Pipeline de Geração de Dados Sintéticos
Estamos também compartilhando nosso pipeline para gerar dados sintéticos, que inclui várias etapas para garantir alta qualidade. O pipeline consiste em gerar prompts, respostas e diálogos, além de filtrar por qualidade e classificar preferências.
Foco no Desenvolvimento Responsável
Ao lançar esses modelos e ferramentas, enfatizamos fortemente práticas de desenvolvimento responsável. Nosso objetivo é prevenir a geração de conteúdo prejudicial ou tóxico enquanto promovemos a acessibilidade geral de modelos poderosos.
Resumo das Contribuições
Em resumo, estamos lançando a família de modelos Nemotron-4 340B. Isso inclui vários modelos sob uma licença de acesso aberto para uso comercial. Fornecemos o código de treinamento e inferência para apoiar a transparência e a reprodutibilidade.
Oferecemos detalhes abrangentes sobre nosso pipeline de geração de dados sintéticos e sua eficácia no alinhamento do modelo. Acreditamos que essas contribuições ajudarão a acelerar o progresso nas aplicações de IA e no desenvolvimento de modelos de linguagem.
Detalhes de Treinamento e Arquitetura
A arquitetura Nemotron-4 340B é semelhante à usada nos modelos anteriores, empregando uma estrutura de Transformer somente decodificadora padrão. Essa configuração inclui várias características inovadoras, como Embeddings de Posição Rotativa e um tokenizer SentencePiece.
Usamos hardware avançado para o treinamento, especificamente 768 nós DGX H100 equipados com GPUs poderosas. Uma combinação de técnicas foi usada durante o treinamento para melhorar a eficiência e o desempenho do modelo.
Processo de Treinamento Contínuo
Após o treinamento inicial de 8 trilhões de tokens, mudamos para o treinamento contínuo com mais 1 trilhão de tokens. Essa abordagem envolveu o uso de uma distribuição de dados diferente que se concentrou em fontes de maior qualidade. Esse método permitiu que o modelo aprendesse melhor com os dados introduzidos nessa fase posterior.
Avaliação do Modelo Base
Durante nossas avaliações, avaliamos o modelo Nemotron-4 em várias referências. Isso incluiu testes populares como MMLU e HumanEval, bem como desafios de raciocínio lógico. Os resultados mostraram que nosso modelo teve um bom desempenho em todos esses benchmarks.
Detalhes do Modelo de Recompensa
O modelo de recompensa desempenha um papel significativo durante o processo de alinhamento. Ele avalia as respostas e ajuda a melhorar a qualidade da interação. Construímos esse modelo usando um conjunto de dados projetado para capturar vários atributos úteis, como correção e coerência.
Gerando Prompts Sintéticos
Criar prompts sintéticos é crucial para a qualidade dos dados gerados. Usamos uma abordagem estruturada para gerar uma variedade diversificada de prompts para várias tarefas. Esse método garante que o modelo possa lidar com diferentes tópicos e tipos de instruções.
Geração de Diálogo para Treinamento
Para treinar o modelo em formato de diálogo, projetamos conversas sintéticas que permitem a interação entre o usuário e o assistente. Essa configuração ajuda o modelo a aprender como se engajar efetivamente em diálogos.
Construindo Conjuntos de Dados de Preferências
Para melhorar a capacidade do modelo de entender preferências, geramos um conjunto de dados consistindo de respostas escolhidas e rejeitadas. Esse conjunto de dados foi criado usando vários prompts para garantir diversidade e qualidade no treinamento.
Processo de Melhoria Iterativa
Nossa abordagem para gerar dados segue um processo de melhoria iterativa. Começamos com um modelo inicial e continuamente o refinamos usando insights obtidos de cada etapa de treinamento e geração de dados. Esse método nos ajuda a melhorar o desempenho em cada etapa.
Incorporando Fontes de Dados Adicionais
Para aprimorar ainda mais as capacidades do modelo, incluímos vários conjuntos de dados suplementares. Esses conjuntos de dados cobrem vários tópicos e tarefas, permitindo que o modelo melhore seu desempenho em uma ampla gama de aplicações.
Algoritmos de Alinhamento
Usamos protocolos padrão para o alinhamento do modelo, que consistiram em duas etapas principais: Ajuste Fino Supervisionado e Ajuste Fino de Preferência. Essas etapas ajudam a refinar a capacidade do modelo de realizar tarefas com precisão.
Abordagem de Ajuste Fino Supervisionado
A fase inicial do Ajuste Fino Supervisionado envolve usar um conjunto de dados misto para treinar o modelo. Percebemos que separar tarefas em estágios distintos melhorou o desempenho do modelo, especialmente para tarefas de codificação.
Estratégia de Ajuste Fino de Preferência
Após o Ajuste Fino Supervisionado, aplicamos o Ajuste Fino de Preferência, que consistiu em várias rodadas de melhorias usando vários algoritmos. Essa abordagem visava garantir que o modelo pudesse distinguir efetivamente entre respostas preferidas e menos desejáveis.
Métricas de Avaliação
Para avaliar o desempenho do modelo, usamos várias métricas de avaliação em diferentes tarefas. Essas métricas nos ajudaram a entender quão bem o modelo se saiu e onde melhorias poderiam ser feitas.
Processo de Avaliação Humana
Além das avaliações automáticas, realizamos avaliações humanas do desempenho do modelo. Anotadores treinados avaliaram as respostas para entender melhor a eficácia do modelo e áreas para aprimoramento.
Avaliações e Medidas de Segurança
À medida que o uso de grandes modelos de linguagem se expande, a segurança se torna cada vez mais importante. Implementamos um sistema de avaliação rigoroso para avaliar riscos de segurança e garantir que as respostas do modelo estejam alinhadas com diretrizes apropriadas.
Conclusão e Direções Futuras
O lançamento da família de modelos Nemotron-4 340B marca um passo significativo no desenvolvimento e na acessibilidade de modelos. Esperamos que essas contribuições fomentem o crescimento e a inovação em tecnologias de IA enquanto mantemos um compromisso com o uso responsável.
Estamos animados com o potencial que esses modelos têm para melhorar a qualidade da compreensão da linguagem e gerar dados sintéticos para aplicações futuras. À medida que avançamos, welcome feedback e colaboração para aprimorar ainda mais esses modelos.
Título: Nemotron-4 340B Technical Report
Resumo: We release the Nemotron-4 340B model family, including Nemotron-4-340B-Base, Nemotron-4-340B-Instruct, and Nemotron-4-340B-Reward. Our models are open access under the NVIDIA Open Model License Agreement, a permissive model license that allows distribution, modification, and use of the models and its outputs. These models perform competitively to open access models on a wide range of evaluation benchmarks, and were sized to fit on a single DGX H100 with 8 GPUs when deployed in FP8 precision. We believe that the community can benefit from these models in various research studies and commercial applications, especially for generating synthetic data to train smaller language models. Notably, over 98% of data used in our model alignment process is synthetically generated, showcasing the effectiveness of these models in generating synthetic data. To further support open research and facilitate model development, we are also open-sourcing the synthetic data generation pipeline used in our model alignment process.
Autores: Nvidia, Bo Adler, Niket Agarwal, Ashwath Aithal, Dong H. Anh, Pallab Bhattacharya, Annika Brundyn, Jared Casper, Bryan Catanzaro, Sharon Clay, Jonathan Cohen, Sirshak Das, Ayush Dattagupta, Olivier Delalleau, Leon Derczynski, Yi Dong, Daniel Egert, Ellie Evans, Aleksander Ficek, Denys Fridman, Shaona Ghosh, Boris Ginsburg, Igor Gitman, Tomasz Grzegorzek, Robert Hero, Jining Huang, Vibhu Jawa, Joseph Jennings, Aastha Jhunjhunwala, John Kamalu, Sadaf Khan, Oleksii Kuchaiev, Patrick LeGresley, Hui Li, Jiwei Liu, Zihan Liu, Eileen Long, Ameya Sunil Mahabaleshwarkar, Somshubra Majumdar, James Maki, Miguel Martinez, Maer Rodrigues de Melo, Ivan Moshkov, Deepak Narayanan, Sean Narenthiran, Jesus Navarro, Phong Nguyen, Osvald Nitski, Vahid Noroozi, Guruprasad Nutheti, Christopher Parisien, Jupinder Parmar, Mostofa Patwary, Krzysztof Pawelec, Wei Ping, Shrimai Prabhumoye, Rajarshi Roy, Trisha Saar, Vasanth Rao Naik Sabavat, Sanjeev Satheesh, Jane Polak Scowcroft, Jason Sewall, Pavel Shamis, Gerald Shen, Mohammad Shoeybi, Dave Sizer, Misha Smelyanskiy, Felipe Soares, Makesh Narsimhan Sreedhar, Dan Su, Sandeep Subramanian, Shengyang Sun, Shubham Toshniwal, Hao Wang, Zhilin Wang, Jiaxuan You, Jiaqi Zeng, Jimmy Zhang, Jing Zhang, Vivienne Zhang, Yian Zhang, Chen Zhu
Última atualização: 2024-08-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.11704
Fonte PDF: https://arxiv.org/pdf/2406.11704
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/nemotron-4-340b-base
- https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/nemotron-4-340b-instruct
- https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/nemotron-4-340b-reward
- https://huggingface.co/nvidia/Nemotron-4-340B-Base
- https://huggingface.co/nvidia/Nemotron-4-340B-Instruct
- https://huggingface.co/nvidia/Nemotron-4-340B-Reward
- https://github.com/NVIDIA/Megatron-LM
- https://github.com/NVIDIA/NeMo-Aligner
- https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/
- https://developer.download.nvidia.com/licenses/nvidia-open-model-license-agreement-june-2024.pdf
- https://huggingface.co/datasets/nvidia/HelpSteer2
- https://github.com/lm-sys/FastChat/pull/3158
- https://ai.meta.com/blog/meta-llama-3/
- https://qwenlm.github.io/blog/Qwen-2/
- https://huggingface.co/nvidia/Aegis-AI-Content-Safety-LlamaGuard-Permissive-1.0
- https://www.sfgate.com/tech/article/fisker-warns-bankruptcy-california-car-19418654.php
- https://en.wikipedia.org/wiki/Intimidation
- https://en.wikipedia.org/wiki/Coercion
- https://en.wikipedia.org/wiki/Crime
- https://en.wikipedia.org/wiki/Injury