Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial

Construindo um Corpus Web Japonês de Alta Qualidade

Um corpus japonês forte criado a partir de dados do Common Crawl melhora o desempenho dos LLMs.

― 8 min ler


Criação de Corpus WebCriação de Corpus WebJaponêsalta qualidade.Melhorando LLMs com dados japoneses de
Índice

Nos últimos anos, houve um crescimento significativo no uso de grandes modelos de linguagem (LLMs) para várias tarefas em processamento de linguagem natural (NLP). Esses modelos foram treinados em várias fontes de dados para melhorar sua capacidade de entender e gerar texto. No entanto, muitos dos corpora existentes usados para treinar LLMs em Japonês não foram de alta Qualidade.

Este artigo discute a criação de um grande corpus de web japonês a partir do arquivo Common Crawl, que é uma coleção de páginas da web rastreadas ao longo de vários anos. O objetivo é fornecer dados de treinamento melhores para LLMs japoneses, melhorando seu desempenho.

Importância de Dados de Qualidade

A eficácia dos LLMs depende muito da qualidade dos dados em que eles são treinados. Muitos conjuntos de dados existentes para modelos de linguagem japonês foram retirados de corpora multilíngues maiores, que muitas vezes não priorizam a qualidade do texto japonês. Essa falta de foco pode levar a modelos que têm dificuldades com nuances da língua.

Para resolver esse problema, é essencial construir um corpus japonês dedicado que não só forneça uma grande quantidade de texto, mas também enfatize a qualidade. Dados de treinamento de alta qualidade permitem que os modelos entendam melhor as complexidades da língua, melhorando seu desempenho em várias tarefas.

O Arquivo Common Crawl

Para criar um corpus japonês de alta qualidade, este projeto extraiu texto do Common Crawl, um repositório extenso de páginas da web coletadas ao longo do tempo. O arquivo contém instantâneas da internet, capturando uma ampla variedade de conteúdo. O projeto utilizou 21 instantâneas do arquivo, cobrindo aproximadamente 63,4 bilhões de páginas coletadas entre 2020 e 2023.

Tamanho do Corpus

O novo corpus de web japonês compreende cerca de 312,1 bilhões de caracteres, o que equivale a aproximadamente 173 milhões de páginas. Isso faz dele o maior corpus do tipo para treinar LLMs japoneses, superando conjuntos de dados usados anteriormente como CC-100, mC4 e OSCAR, que incluem quantidades menores de texto japonês.

Verificando a Qualidade

Para garantir a eficácia do novo corpus criado, os pesquisadores realizaram pré-treinamento contínuo em LLMs conhecidos, como Llama 2 e Mistral. Os resultados mostraram melhorias consistentes no desempenho em conjuntos de dados de referência japoneses, confirmando que o novo corpus realmente melhora as capacidades do modelo em entender e gerar texto em japonês.

Motivação para o Desenvolvimento

A vontade de desenvolver melhores LLMs japoneses vem de vários fatores. Há uma necessidade de avançar na pesquisa em NLP, enquanto também se abordam preocupações de segurança sobre a dependência de empresas estrangeiras. Com muitas empresas e universidades japonesas se envolvendo ativamente no desenvolvimento de LLMs abertos, há uma urgência em ter dados de treinamento melhores especificamente focados nas necessidades da língua japonesa.

Limitações dos Conjuntos de Dados Existentes

Numerosos conjuntos de dados japoneses existentes sofrem de problemas de qualidade. Por exemplo, eles frequentemente incorporam ruído de processos de conversão de HTML para texto, levando a dados corrompidos ou não refinados. Como muitos desses conjuntos de dados foram criados em contextos multilíngues, eles não atendem necessariamente às complexidades do japonês.

Abordagem para Construir o Corpus

Este projeto se concentrou em construir um corpus de web japonês de alta qualidade e grande escala com várias etapas principais:

  1. Extraindo Texto Japonês: A fase inicial envolve extrair texto de arquivos WARC no Common Crawl. O processo começa acessando as instantâneas armazenadas no Amazon S3, usando ferramentas para extrair conteúdo HTML para análise posterior.

  2. Selecionando Texto de Alta Qualidade: Depois de extrair o texto, um processo de filtragem é aplicado para garantir que apenas conteúdo japonês de alta qualidade seja incluído. Essa seleção é crítica para eliminar ruído desnecessário.

  3. Limpando o Texto: Por fim, o texto extraído passa por um processo de limpeza para garantir que seja apresentado em um formato consistente e utilizável. Esta etapa envolve normalizar a pontuação e remover qualquer componente irrelevante que não tenha sido filtrado nas etapas anteriores.

Detecção de Idioma

Um desafio significativo enfrentado durante o processo de extração envolve detectar com precisão o idioma japonês dentro da enorme quantidade de dados. Para enfrentar isso, o projeto empregou um método rápido de detecção de idiomas que identifica eficientemente o conteúdo japonês sem precisar analisar cada página em detalhes. Essa abordagem simplificada reduz significativamente o tempo de processamento enquanto mantém um alto nível de precisão.

Filtragem por Qualidade

O processo de filtragem de qualidade apresenta várias etapas:

  • Removendo Duplicatas: Conteúdo que é repetitivo ou não informativo é removido para garantir que o corpus contenha apenas texto útil.
  • Estabelecendo Padrões de Qualidade: Várias regras foram definidas para determinar o que constitui um texto japonês de alta qualidade. Essas regras abordam fatores como contagem de caracteres, uso da língua e estrutura das frases.

Ao empregar essas técnicas de filtragem, o corpus final mantém uma quantidade significativa de conteúdo valioso enquanto descarta dados irrelevantes ou de baixa qualidade.

Processo de Deduplicação

Após a filtragem por qualidade, a próxima fase envolve a deduplicação, que remove entradas redundantes dentro do corpus. Usando um método chamado MinHash, o projeto identifica documentos duplicados e retém apenas as versões mais recentes. Essa abordagem melhora a eficiência do treinamento, garantindo que os modelos não memorizem informações repetitivas.

Filtragem de Nomes de Host

Para refinar ainda mais o corpus, um sistema de filtragem baseado em nomes de host foi estabelecido. Certos sites conhecidos por produzir conteúdo de baixa qualidade ou material prejudicial foram bloqueados da inclusão no conjunto de dados final. Esta etapa elevou significativamente o padrão geral do corpus.

Processo de Limpeza

O processo de limpeza visa garantir que o texto esteja pronto para uso no treinamento de LLMs. Isso inclui pequenas edições como normalização da pontuação e remoção de qualquer texto de rodapé que não foi filtrado nas etapas anteriores. Essa limpeza cuidadosa ajuda a manter a qualidade e a consistência geral dos dados.

Treinamento e Avaliação de Modelos

Para avaliar a eficácia do novo corpus criado, vários LLMs proeminentes foram selecionados para pré-treinamento contínuo. Esses modelos, que já estão bem familiarizados com o inglês, foram ajustados usando o corpus de web japonês junto com outras fontes como a Wikipédia japonesa.

O processo de treinamento envolveu preparar uma mistura do novo corpus japonês e outros conjuntos de dados para equilibrar o conhecimento de japonês e inglês. Como resultado, esses modelos adquiriram habilidades aprimoradas em entender e gerar texto em japonês, como evidenciado pelas melhorias de desempenho em várias tarefas de referência.

Avaliação de Referência

Durante a fase de avaliação, os modelos foram testados contra um conjunto de conjuntos de dados de referência japoneses. Essas avaliações cobriram diferentes tipos de tarefas, como perguntas de múltipla escolha, compreensão de leitura e inferência de linguagem natural. Os ganhos de desempenho observados durante essas avaliações destacaram a eficácia do novo corpus japonês em apoiar tarefas que exigem uma compreensão mais profunda da língua.

Direções Futuras

Embora este projeto tenha estabelecido com sucesso um grande corpus de web japonês, ainda há muitas avenidas para crescimento. Trabalhos futuros visam melhorar as medidas de segurança para LLMs, reduzindo a geração de conteúdo prejudicial. É importante continuar desenvolvendo métodos de filtragem mais robustos para garantir que os dados de treinamento permaneçam benéficos e livres de viés.

Além disso, enquanto o foco atual continua sendo no pré-treinamento contínuo, explorar métodos para treinar LLMs japoneses do zero também é uma prioridade. O objetivo é avaliar a eficácia do corpus não apenas nas tarefas apoiadas, mas também em capturar uma compreensão mais ampla da língua.

Conclusão

Em resumo, este projeto construiu com sucesso um substancial corpus de web japonês, extraindo e refinando texto do arquivo Common Crawl. O conjunto de dados resultante é o maior disponível para treinamento de LLMs japoneses, e sua eficácia foi validada por meio de experimentos de pré-treinamento que demonstram melhorias consistentes de desempenho.

O foco na qualidade, métodos de extração minuciosos e processos de filtragem rigorosos resultaram em um recurso utilizável que pode melhorar significativamente o treinamento e o desempenho de modelos de linguagem japoneses. À medida que os trabalhos futuros continuam a refinar e desenvolver este corpus, há um grande potencial para avançar nas capacidades de processamento de linguagem natural no contexto japonês.

Fonte original

Título: Building a Large Japanese Web Corpus for Large Language Models

Resumo: Open Japanese large language models (LLMs) have been trained on the Japanese portions of corpora such as CC-100, mC4, and OSCAR. However, these corpora were not created for the quality of Japanese texts. This study builds a large Japanese web corpus by extracting and refining text from the Common Crawl archive (21 snapshots of approximately 63.4 billion pages crawled between 2020 and 2023). This corpus consists of approximately 312.1 billion characters (approximately 173 million pages), which is the largest of all available training corpora for Japanese LLMs, surpassing CC-100 (approximately 25.8 billion characters), mC4 (approximately 239.7 billion characters) and OSCAR 23.10 (approximately 74 billion characters). To confirm the quality of the corpus, we performed continual pre-training on Llama 2 7B, 13B, 70B, Mistral 7B v0.1, and Mixtral 8x7B Instruct as base LLMs and gained consistent (6.6-8.1 points) improvements on Japanese benchmark datasets. We also demonstrate that the improvement on Llama 2 13B brought from the presented corpus was the largest among those from other existing corpora.

Autores: Naoaki Okazaki, Kakeru Hattori, Hirai Shota, Hiroki Iida, Masanari Ohi, Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Rio Yokota, Sakae Mizuki

Última atualização: 2024-04-26 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2404.17733

Fonte PDF: https://arxiv.org/pdf/2404.17733

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Ligações de referência

Mais de autores

Artigos semelhantes