Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Lançando um Conjunto de Dados Abrangente de Língua Inglesa

Um novo conjunto de dados tem como objetivo melhorar a pesquisa em modelos de linguagem e promover a transparência.

― 8 min ler


Novo Conjunto de DadosNovo Conjunto de Dadospara Modelos de Linguagemlinguagem.pra avançar a pesquisa em modelos deUm conjunto de dados completo lançado
Índice

Modelos de linguagem agora são ferramentas essenciais pra várias tarefas que envolvem processamento de linguagem natural. Mas, os detalhes exatos de como os modelos de linguagem mais performáticos foram criados geralmente não são compartilhados. Um aspecto chave que raramente é discutido é o dado de pré-treinamento deles. A maioria dos modelos de linguagem comerciais não revela essa informação, e mesmo os que são open-source raramente fornecem seus Conjuntos de dados de treinamento ou um método claro pra replicá-los. Essa falta de transparência cria desafios pros pesquisadores que tentam entender como os dados de treinamento influenciam as habilidades e limitações dos modelos.

Pra apoiar a pesquisa aberta em pré-treinamento de modelos de linguagem, estamos liberando um conjunto de dados significativo com três trilhões de tokens de texto em inglês. Esse conjunto é construído a partir de uma ampla gama de fontes, incluindo conteúdo da web, artigos acadêmicos, código, livros de domínio público, redes sociais e entradas enciclopédicas. Além disso, estamos disponibilizando nossas ferramentas pra curar dados pra outros pesquisadores usarem em experimentos e replicarem nossos esforços.

Neste documento, descrevemos o conjunto de dados, detalhando seus princípios de design, processo de construção e conteúdos. Também incluímos análises e resultados do treinamento de modelos de linguagem usando várias etapas desse conjunto de dados pra destacar práticas importantes na Curadoria de Dados. Isso inclui o uso de filtros pra qualidade de conteúdo, gerenciamento de entradas duplicadas e mistura de dados de diferentes fontes. O conjunto de dados foi utilizado pra treinar o OLMo, um Modelo de Linguagem open-source de ponta e um framework focado em avançar nosso conhecimento em modelagem de linguagem.

Visão Geral do Corpus

O conjunto de dados é composto por três trilhões de tokens amostrados de fontes diversas, totalizando cerca de 200 terabytes de texto bruto. Ele foi cuidadosamente limpo pra atender às necessidades de treinamento de modelos de linguagem. Hoje em dia, os modelos de linguagem são centrais pra muitas tarefas de processamento de linguagem natural, desde fornecer respostas até fazer resumos e facilitar o aprendizado de poucos exemplos.

Os modelos de linguagem mais poderosos são desenvolvidos por algumas organizações que mantêm a maior parte do processo de desenvolvimento escondido. Isso inclui declarações vagas sobre a composição dos dados de pré-treinamento, mesmo quando os modelos são liberados pra uso público. Como resultado, é difícil avaliar como a composição dos dados de pré-treinamento afeta o desempenho e limitações do modelo. Essa falta de clareza pode dificultar o progresso científico e afetar como o público interage com esses modelos. Portanto, buscamos abertura e transparência ao liberar nosso conjunto de dados e documentação sobre sua criação, permitindo que a comunidade de pesquisa mais ampla analise e construa sobre nossas descobertas.

Nosso objetivo principal é permitir que mais pesquisadores e organizações se envolvam na pesquisa e desenvolvimento de modelos de linguagem. A transparência nos dados ajuda os usuários de aplicações baseadas em modelos de linguagem a tomarem decisões melhores. Por exemplo, estudos mostraram que a frequência de certos documentos ou termos nos dados de pré-treinamento está ligada a um desempenho melhor em tarefas relacionadas. Assim, oferecer acesso aos dados de pré-treinamento permitirá estudos empíricos que podem investigar como a mistura de dados afeta o comportamento do modelo.

Composição do Conjunto de Dados

O conjunto de dados é uma mistura de vários tipos de conteúdo pra capturar uma visão ampla do uso da língua inglesa. As fontes do conjunto de dados incluem:

  1. Dados da Web: Coletamos uma quantidade substancial de texto do Common Crawl, um conjunto de dados público que arquiva informações de toda a Internet.
  2. Artigos Científicos: A pesquisa acadêmica foi incluída extraindo artigos do banco de dados Semantic Scholar.
  3. Código: Reunimos código de programação do GitHub, focando em repositórios com licenças permissivas.
  4. Livros de Domínio Público: Obras literárias do Project Gutenberg, que hospeda vários textos de domínio público, também foram incluídas.
  5. Postagens em Redes Sociais: Coletamos conteúdo de plataformas como Reddit pra incorporar dados de conversa.
  6. Conteúdo Enciclopédico: Sourcing artigos da Wikipedia e Wikibooks pra adicionar material de referência confiável.

O conjunto de dados resultante é não só grande, mas também diverso, garantindo que reflita vários domínios de conhecimento e estilos de escrita.

Processamento e Limpeza de Dados

Pra preparar o conjunto de dados pra uso no treinamento de modelos de linguagem, implementamos um processo de limpeza abrangente. Isso envolveu várias etapas chave:

  • Filtragem de Linguagem: Utilizamos ferramentas automatizadas de identificação de linguagem pra garantir que apenas texto em inglês permanecesse no conjunto de dados. Páginas identificadas como não sendo principalmente em inglês foram removidas.
  • Filtragem de Qualidade: Vários critérios foram aplicados pra eliminar texto de baixa qualidade. Documentos que não atendiam a certos padrões de legibilidade ou que continham conteúdo duplicado demais foram excluídos.
  • Filtragem de Conteúdo: Conteúdo que pode ser considerado tóxico ou prejudicial foi sistematicamente removido. Isso incluiu filtrar informações pessoalmente identificáveis (PII) pra proteger a privacidade de indivíduos.
  • Desduplicação: Tomamos medidas pra garantir que entradas duplicadas fossem minimizadas. Isso ajuda a melhorar a eficiência do treinamento do modelo ao reduzir dados redundantes.

Esses métodos de filtragem e limpeza são cruciais pra criar um conjunto de dados que seja de alta qualidade e relevante pra treinamento de modelos de linguagem.

Ferramenta de Curadoria de Dados

Junto com o conjunto de dados, também estamos liberando uma ferramenta projetada pra curadoria eficiente de dados. Essa ferramenta é destinada a ajudar outros pesquisadores a replicar nossos esforços ou desenvolver suas próprias pipelines de dados. Ela pode rodar em várias plataformas, incluindo hardware padrão de consumidor e sistemas distribuídos maiores, tornando-a acessível pra muitos usuários.

A ferramenta inclui recursos pra identificar linguagem, aplicar filtros de qualidade e conteúdo tóxico, e lidar com desduplicação. Usando essa ferramenta, os pesquisadores podem adaptar suas abordagens de Processamento de Dados pra atender suas necessidades específicas ou explorar novas avenidas no treinamento de modelos de linguagem.

Experimentos e Resultados

Como parte dessa iniciativa, vários experimentos foram conduzidos pra avaliar a eficácia de diferentes práticas de curadoria de dados. Focamos em vários aspectos, incluindo:

  • O Impacto da Qualidade do Conteúdo: Avaliamos como as medidas tomadas pra filtrar conteúdo de baixa qualidade afetaram o desempenho do modelo. Modelos treinados em conjuntos de dados de alta qualidade mostraram melhor precisão em tarefas subsequentes.
  • Eficiência de Desduplicação: Ao analisar modelos treinados com e sem desduplicação, encontramos melhorias significativas no tempo e eficiência de treinamento quando as duplicatas foram removidas.
  • Estratégias de Mistura de Dados: Examinamos como diferentes combinações de fontes de dados influenciaram o desempenho geral dos modelos de linguagem. Ficou claro que uma mistura cuidadosa de conteúdo da web, acadêmico e de redes sociais produziu os melhores resultados.

Esses experimentos nos permitiram obter insights valiosos sobre como a curadoria de dados influencia o treinamento de modelos de linguagem, fornecendo diretrizes pra pesquisas futuras.

Conclusão

A liberação desse conjunto de dados com três trilhões de tokens marca um passo significativo em direção à transparência na pesquisa de modelos de linguagem. Ao fornecer acesso aos dados e aos métodos usados pra curá-los, buscamos fomentar um ambiente colaborativo onde os pesquisadores possam construir sobre o trabalho uns dos outros. Isso não só melhorará a qualidade dos modelos de linguagem, mas também promoverá práticas de desenvolvimento responsáveis.

O foco na abertura e colaboração reflete nosso compromisso em avançar o campo do processamento de linguagem natural. Incentivamos pesquisadores, desenvolvedores e organizações a utilizarem esse conjunto de dados e ferramenta pra seus próprios projetos e estudos, contribuindo pra evolução contínua da tecnologia de linguagem.

Através de curadoria cuidadosa, análise extensa e colaboração aberta, esperamos apoiar o desenvolvimento de modelos de linguagem mais eficazes e confiáveis que possam atender uma ampla gama de aplicações no futuro.

Fonte original

Título: Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

Resumo: Information about pretraining corpora used to train the current best-performing language models is seldom discussed: commercial models rarely detail their data, and even open models are often released without accompanying training data or recipes to reproduce them. As a result, it is challenging to conduct and advance scientific research on language modeling, such as understanding how training data impacts model capabilities and limitations. To facilitate scientific research on language model pretraining, we curate and release Dolma, a three-trillion-token English corpus, built from a diverse mixture of web content, scientific papers, code, public-domain books, social media, and encyclopedic materials. We extensively document Dolma, including its design principles, details about its construction, and a summary of its contents. We present analyses and experimental results on intermediate states of Dolma to share what we have learned about important data curation practices. Finally, we open-source our data curation toolkit to enable reproduction of our work as well as support further research in large-scale data curation.

Autores: Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo

Última atualização: 2024-06-06 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2402.00159

Fonte PDF: https://arxiv.org/pdf/2402.00159

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Ligações de referência

Mais de autores

Artigos semelhantes