Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Aprendizagem de máquinas

Apresentando o MAP-Neo: Um Novo Modelo Bilingue de Código Aberto

O MAP-Neo busca transparência e desempenho na modelagem de linguagem em IA.

― 6 min ler


MAP-Neo: O ModeloMAP-Neo: O ModeloBilingue Abertode IA.concorrência na tecnologia de linguagemUm novo modelo promove transparência e
Índice

Modelos de Linguagem Grande (LLMs) tiveram uma evolução grande nos últimos anos. Mas muitos dos melhores modelos, como GPT, Gemini e Claude, são mantidos em sigilo, o que dificulta a vida dos pesquisadores que tentam entender como eles foram criados. Tem alguns modelos públicos, como o LLaMA-3, mas muitos detalhes, tipo os dados de treino ou o código, geralmente não são divulgados.

Pra ajudar nesse cenário, alguns grupos de pesquisa disponibilizaram modelos realmente open-source, que compartilham mais informações sobre seus processos de treino e coleta de dados. Modelos como Pythia, Amber e OLMo contribuíram pra comunidade de pesquisa aberta, trazendo insights sobre os pontos fortes e fracos dos LLMs.

Apesar desses esforços, os modelos open-source atuais ainda ficam atrás dos melhores modelos privados em áreas como raciocínio, tarefas de conhecimento e geração de código. Pra acabar com essa diferença, apresentamos o MAP-Neo, um modelo de linguagem bilíngue com 7 bilhões de parâmetros, treinado com 4,5 trilhões de tokens de dados de alta qualidade. Nosso modelo é o primeiro LLM bilíngue completamente open-source que mostra Desempenho competitivo em relação aos principais modelos existentes.

Recursos do MAP-Neo

Abertura e Transparência

O MAP-Neo foi feito pra ser transparente. Compartilhamos todos os detalhes necessários pra reproduzir nosso modelo. Isso inclui nossos dados de pré-treino limpos, os métodos usados pra limpar os dados, pontos de verificação intermediários do modelo e a estrutura de treino e avaliação. Ao fornecer esses recursos, queremos apoiar a comunidade acadêmica e incentivar mais pesquisas nessa área.

Comparação de Desempenho

O MAP-Neo se sai bem em vários benchmarks, tanto nas configurações de modelo base quanto de chat. Comparamos seu desempenho com modelos open-source populares e outros modelos transparentes recentes de tamanhos semelhantes. Os resultados mostram que o MAP-Neo se destaca em áreas como raciocínio, codificação e tarefas de conhecimento.

A Necessidade de Modelos Open Source

A recente explosão das capacidades de IA é impulsionada por LLMs como o GPT-4 e o Claude, que melhoraram o processamento de linguagem natural. Esses modelos conseguem fazer raciocínios complexos, escrever de forma criativa, educar em ciência e muito mais. Porém, os melhores modelos muitas vezes não estão abertos ao público, o que limita a pesquisa acadêmica e a democratização da tecnologia de IA.

Tentativas anteriores de criar modelos open-source, como o LLaMA e o BLOOM, ajudaram, mas ainda não divulgaram todos os detalhes sobre seus dados de treino. O OLMo melhorou a situação ao fornecer mais informações, mas ainda há uma diferença de desempenho em comparação com os modelos privados.

Introdução do MAP-Neo

Pra fechar essa lacuna, o MAP-Neo é um modelo bilíngue totalmente open-source que visa ter um desempenho equivalente aos melhores modelos fechados, mas com transparência. Todo o processo de construção do MAP-Neo inclui um pipeline de curadoria detalhado pros dados, uma arquitetura de modelo abrangente e métodos de avaliação.

Pipeline de Curadoria de Dados

Desenvolvemos um processo detalhado de curadoria e limpeza de dados pros dados de treino em inglês e chinês. Esse processo inclui sistemas de OCR estáveis, um mecanismo de recuperação de dados, integração de pipelines de processamento de dados existentes e suporte pra processamento distribuído.

Fontes de Dados

O corpus de pré-treino do MAP-Neo, chamado Matrix Data Pile, consiste em uma variedade de fontes, incluindo Common Crawl, código de programação, artigos acadêmicos, livros e mais. A composição enfatiza tanto o conteúdo em inglês quanto em chinês.

Arquitetura do Modelo

O MAP-Neo é construído com uma arquitetura de decodificador transformer. Usamos várias melhorias em modelos transformer padrão, como:

  • Atenção Multi-Query
  • Embeddings Posicionais Rotativos (RoPE)
  • RMSNorm pra estabilidade

Essas modificações ajudam a otimizar o desempenho, permitindo que o MAP-Neo compreenda e gere texto de forma mais eficaz.

Treinamento e Ajuste Fino do MAP-Neo

O MAP-Neo segue uma estratégia de treinamento em duas etapas.

Fase de Pré-treinamento

A fase inicial foca nas capacidades gerais, utilizando uma ampla gama de textos. Mais de 100 bilhões de tokens são processados durante a fase de pré-treinamento, garantindo um treinamento robusto em entradas diversas.

Fase de Ajuste Fino

Na segunda fase, refinamos as habilidades do modelo com dados de instrução específicos pra melhorar seu desempenho em tarefas como codificação, raciocínio e entendimento de linguagem complexa.

Aplicamos ajuste fino supervisionado pra alinhar o modelo mais de perto com o comportamento humano em várias aplicações.

Avaliação de Desempenho

O MAP-Neo foi avaliado em vários benchmarks, mostrando melhorias significativas. Avaliamos o desempenho com base em métricas de raciocínio, codificação, conhecimento do mundo e compreensão de leitura, garantindo consistência e confiabilidade nos resultados.

Resultados

Nossas avaliações mostram que o MAP-Neo alcança pontuações fortes em comparação com outros modelos, especialmente em tarefas de codificação e matemática. O MAP-Neo supera outros modelos open-source que antes tinham dificuldades com benchmarks similares.

O Papel da Qualidade dos Dados

A qualidade dos dados de treinamento impacta diretamente o desempenho do modelo. Ao curar conjuntos de dados de alta qualidade com cuidado, o MAP-Neo consegue superar modelos anteriores que dependiam de dados menos confiáveis.

A Importância da Abertura

A mudança pra modelos open-source é crucial por várias razões:

  1. Democratização da IA: Modelos open-source ajudam a garantir que os avanços em IA sejam acessíveis a um público mais amplo, incluindo empresas menores e pesquisadores.

  2. Transparência: Compartilhando processos detalhados, os pesquisadores podem entender como os modelos funcionam, facilitando melhorias e confiança.

  3. Colaboração e Inovação: O open-source estimula a troca de ideias e melhorias entre os pesquisadores, levando a inovações mais rápidas.

Conclusão

Neste relatório, apresentamos o MAP-Neo como um avanço significativo rumo à transparência nos LLMs. Ao compartilhar nossos métodos, dados e detalhes do modelo, esperamos inspirar mais pesquisas e desenvolvimento na comunidade de IA. Nosso trabalho demonstra que é possível criar modelos de alto desempenho enquanto se é aberto e transparente, abrindo caminho pra desenvolvimentos mais inclusivos nas tecnologias de IA em todo o mundo.

Direções Futuras

O projeto MAP-Neo representa um passo crítico na promoção da transparência e acessibilidade dos LLMs. Os esforços futuros vão se concentrar em aprimorar a colaboração com outros pesquisadores e instituições, expandir nosso conjunto de dados e refinar nosso modelo pra garantir melhorias contínuas no desempenho.

Ao engajar a comunidade de IA mais ampla, pretendemos abordar as lacunas restantes no desempenho e continuar fazendo avanços que beneficiem a sociedade como um todo.

Fonte original

Título: MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series

Resumo: Large Language Models (LLMs) have made great strides in recent years to achieve unprecedented performance across different tasks. However, due to commercial interest, the most competitive models like GPT, Gemini, and Claude have been gated behind proprietary interfaces without disclosing the training details. Recently, many institutions have open-sourced several strong LLMs like LLaMA-3, comparable to existing closed-source LLMs. However, only the model's weights are provided with most details (e.g., intermediate checkpoints, pre-training corpus, and training code, etc.) being undisclosed. To improve the transparency of LLMs, the research community has formed to open-source truly open LLMs (e.g., Pythia, Amber, OLMo), where more details (e.g., pre-training corpus and training code) are being provided. These models have greatly advanced the scientific study of these large models including their strengths, weaknesses, biases and risks. However, we observe that the existing truly open LLMs on reasoning, knowledge, and coding tasks are still inferior to existing state-of-the-art LLMs with similar model sizes. To this end, we open-source MAP-Neo, a highly capable and transparent bilingual language model with 7B parameters trained from scratch on 4.5T high-quality tokens. Our MAP-Neo is the first fully open-sourced bilingual LLM with comparable performance compared to existing state-of-the-art LLMs. Moreover, we open-source all details to reproduce our MAP-Neo, where the cleaned pre-training corpus, data cleaning pipeline, checkpoints, and well-optimized training/evaluation framework are provided. Finally, we hope our MAP-Neo will enhance and strengthen the open research community and inspire more innovations and creativities to facilitate the further improvements of LLMs.

Autores: Ge Zhang, Scott Qu, Jiaheng Liu, Chenchen Zhang, Chenghua Lin, Chou Leuang Yu, Danny Pan, Esther Cheng, Jie Liu, Qunshu Lin, Raven Yuan, Tuney Zheng, Wei Pang, Xinrun Du, Yiming Liang, Yinghao Ma, Yizhi Li, Ziyang Ma, Bill Lin, Emmanouil Benetos, Huan Yang, Junting Zhou, Kaijing Ma, Minghao Liu, Morry Niu, Noah Wang, Quehry Que, Ruibo Liu, Sine Liu, Shawn Guo, Soren Gao, Wangchunshu Zhou, Xinyue Zhang, Yizhi Zhou, Yubo Wang, Yuelin Bai, Yuhan Zhang, Yuxiang Zhang, Zenith Wang, Zhenzhu Yang, Zijian Zhao, Jiajun Zhang, Wanli Ouyang, Wenhao Huang, Wenhu Chen

Última atualização: 2024-07-10 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.19327

Fonte PDF: https://arxiv.org/pdf/2405.19327

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Ligações de referência

Mais de autores

Artigos semelhantes