Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

WanJuan-CC: Um Novo Conjunto de Dados para Modelos de Linguagem

Um conjunto de dados de alta qualidade pra treinar modelos de linguagem a partir de conteúdo da web em inglês.

― 5 min ler


Visão Geral do ConjuntoVisão Geral do Conjuntode Dados WanJuan-CClinguagem.treinamento eficaz de modelo deDados de alta qualidade pra um
Índice

WanJuan-CC é um conjunto de dados open-source criado a partir de conteúdo web em inglês coletado pelo Common Crawl. Esse dataset tem como objetivo fornecer dados seguros e de alta qualidade para treinar modelos de linguagem. Ele resolve as dificuldades de reunir grandes quantidades de dados confiáveis que são necessários para treinar esses modelos de forma eficaz.

Importância de Grandes Conjuntos de dados

Modelos de linguagem, que são usados em várias aplicações como chatbots e serviços de tradução, precisam de grandes volumes de dados para aprender. Esses dados ajudam eles a entender padrões linguísticos, gramática, contexto e significado. Coletar dados de alta qualidade pode ser desafiador, especialmente quando se trata de dados da internet.

O Processo de Criação do WanJuan-CC

Para criar o WanJuan-CC, foi implementado um processo cuidadoso para filtrar e organizar os dados. O procedimento envolve várias etapas:

  1. Extração de Dados: Informações são tiradas de páginas da web que o Common Crawl coletou.
  2. Filtragem: Regras heurísticas são aplicadas para limpar os dados. Isso inclui remover erros, problemas de formatação e conteúdo irrelevante.
  3. Deduplicação: Entradas duplicadas são identificadas e removidas. Isso significa que qualquer conteúdo repetido não atrapalha o conjunto de dados.
  4. Filtragem de Segurança: Conteúdos que podem ser prejudiciais ou ofensivos, como comentários tóxicos ou material explícito, são filtrados.
  5. Filtragem de Qualidade: Verificações adicionais garantem que os dados não sejam apenas seguros, mas também úteis para treinar modelos.

A Escala do WanJuan-CC

Os dados originais coletados do Common Crawl continham cerca de 68 bilhões de documentos em inglês. Depois do processamento, a equipe conseguiu obter cerca de 2,22 trilhões de Tokens de informações seguras. Desses, eles selecionaram 1 trilhão de tokens considerados de alta qualidade para o dataset. Eles também tornaram 100 bilhões de tokens disponíveis ao público como dados open-source.

Desafios de Usar Dados do Common Crawl

O Common Crawl oferece uma quantidade enorme de dados, mas também inclui muito conteúdo de baixa qualidade. Isso inclui links quebrados, publicidade e textos duplicados. Esses dados podem confundir os modelos de linguagem e levar a resultados imprecisos. Além disso, alguns conteúdos podem ser prejudiciais ou violar a privacidade do usuário, como informações pessoais identificáveis (PII).

Para combater esses problemas, a equipe por trás do WanJuan-CC projetou um sistema rigoroso de processamento de dados que filtra conteúdos de baixa qualidade e inseguros. Isso garante que o conjunto de dados resultante seja tanto confiável quanto apropriado para o treinamento de modelos.

Estratégias de Filtragem

Várias estratégias foram empregadas para garantir que apenas os melhores dados fossem incluídos no WanJuan-CC:

  • Filtragem Heurística: Regras específicas foram criadas para pegar e remover erros óbvios nos dados, como textos confusos ou linhas vazias.
  • Classificadores de Toxicidade e Pornografia: Modelos especializados treinados para identificar conteúdo prejudicial foram usados para eliminar comentários tóxicos ou materiais explícitos.
  • Mascaramento de PII: Expressões regulares foram usadas para mascarar informações pessoais, como nomes, endereços de e-mail e números de telefone, protegendo a privacidade.

Avaliação da Qualidade do WanJuan-CC

Para verificar a qualidade dos dados incluídos no WanJuan-CC, várias métricas de avaliação foram estabelecidas. Essas métricas analisaram diferentes aspectos do conjunto de dados, como quão limpos e úteis os dados são, e como preservam a privacidade dos usuários. A equipe usou métodos automatizados e avaliações humanas para avaliar a qualidade.

Avaliação de Desempenho

Para testar quão eficaz é o WanJuan-CC, pesquisadores treinaram diferentes versões de modelos de linguagem usando esse conjunto de dados e compararam seu desempenho com aqueles treinados com outras fontes de dados. As avaliações mostraram que os modelos treinados no WanJuan-CC tiveram um desempenho melhor em várias tarefas, incluindo entender contexto e gerar frases coerentes.

Comparação com Outros Conjuntos de Dados

WanJuan-CC foi comparado a outros conjuntos de dados que também usam dados do Common Crawl. Essa análise mostrou que, enquanto muitos conjuntos de dados existem, poucos igualam a filtragem rigorosa e checagens de qualidade que o WanJuan-CC implementou. Por exemplo, muitos outros conjuntos de dados não usam técnicas avançadas para filtrar conteúdos prejudiciais.

Direções Futuras

O trabalho feito na criação do WanJuan-CC estabelece uma base para futuras melhorias em conjuntos de dados de treinamento para modelos de linguagem. Ainda há espaço para aprimoramento nos processos usados para filtragem e checagem de qualidade. Pesquisas futuras também podem explorar novas aplicações para o conjunto de dados em várias áreas de processamento de linguagem natural, como sumarização de textos e perguntas e respostas.

Conclusão

WanJuan-CC representa um recurso valioso para pesquisadores e desenvolvedores interessados em modelos de linguagem. Ao fornecer um conjunto de dados seguro, bem estruturado e de alta qualidade, ele contribui significativamente para o desenvolvimento contínuo na área de processamento de linguagem natural. Com mais aplicações surgindo, ter dados de treinamento de alta qualidade se tornará ainda mais essencial. O futuro dos modelos de linguagem parece promissor com conjuntos de dados como o WanJuan-CC liderando o caminho.

Fonte original

Título: WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset

Resumo: This paper presents WanJuan-CC, a safe and high-quality open-sourced English webtext dataset derived from Common Crawl data. The study addresses the challenges of constructing large-scale pre-training datasets for language models, which require vast amounts of high-quality data. A comprehensive process was designed to handle Common Crawl data, including extraction, heuristic rule filtering, fuzzy deduplication, content safety filtering, and data quality filtering. From approximately 68 billion original English documents, we obtained 2.22T Tokens of safe data and selected 1.0T Tokens of high-quality data as part of WanJuan-CC. We have open-sourced 100B Tokens from this dataset. The paper also provides statistical information related to data quality, enabling users to select appropriate data according to their needs. To evaluate the quality and utility of the dataset, we trained 1B-parameter and 3B-parameter models using WanJuan-CC and another dataset, RefinedWeb. Results show that WanJuan-CC performs better on validation datasets and downstream tasks.

Autores: Jiantao Qiu, Haijun Lv, Zhenjiang Jin, Rui Wang, Wenchang Ning, Jia Yu, ChaoBin Zhang, Zhenxiang Li, Pei Chu, Yuan Qu, Jin Shi, Lindong Lu, Runyu Peng, Zhiyuan Zeng, Huanze Tang, Zhikai Lei, Jiawei Hong, Keyu Chen, Zhaoye Fei, Ruiliang Xu, Wei Li, Zhongying Tu, Lin Dahua, Yu Qiao, Hang Yan, Conghui He

Última atualização: 2024-03-17 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2402.19282

Fonte PDF: https://arxiv.org/pdf/2402.19282

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes