Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial

CulturaX: Uma Nova Era em Conjuntos de Dados Multilíngues

A CulturaX oferece um conjunto de dados multilíngue com 6,3 trilhões de tokens pra melhorar a tecnologia de linguagem.

― 6 min ler


CulturaX: RevolucionandoCulturaX: Revolucionandoos Modelos de Linguagemavançado de modelos de linguagem.dados multilíngue pra treinamentoCulturaX oferece um baita conjunto de
Índice

Modelos de linguagem grandes (LLMs) mudaram a forma como usamos e entendemos a tecnologia de linguagem. Esses modelos conseguem aprender com uma quantidade enorme de dados textuais, permitindo que gerem textos parecidos com os humanos e realizem várias tarefas. No entanto, o desenvolvimento desses modelos depende muito da qualidade e do tamanho dos Conjuntos de dados utilizados para o Treinamento. Infelizmente, muitos dos modelos mais poderosos não compartilham totalmente os conjuntos de dados nos quais foram treinados. Essa falta de transparência cria desafios para estudar questões como preconceitos e imprecisões nesses modelos.

Para enfrentar esses desafios, apresentamos o CulturaX, um conjunto de dados imenso e multilíngue projetado para o treinamento de LLMs. Esse conjunto contém 6,3 trilhões de tokens em 167 idiomas diferentes. Ele foi cuidadosamente limpo e organizado para fornecer os melhores dados possíveis para o treinamento. Ao compartilhar o CulturaX com o público, esperamos apoiar a pesquisa e o desenvolvimento na tecnologia de linguagem multilíngue.

A Importância de Conjuntos de Dados de Qualidade

O desempenho de um LLM depende muito dos dados nos quais ele é treinado. Conjuntos de dados de alta qualidade ajudam os modelos a aprender melhor e a reduzir problemas como gerar informações falsas ou mostrar preconceitos. Tradicionalmente, muitos LLMs foram treinados com textos em inglês, o que limita sua eficácia para idiomas que não são o inglês. Em um mundo com mais de 7.000 idiomas, esse foco no inglês pode atrapalhar o progresso em outras Línguas.

Muitos conjuntos de dados disponíveis, como a Wikipedia e várias coleções de textos da web, muitas vezes carecem de uma organização adequada e podem conter conteúdos ruins. Esse problema é especialmente agudo para conjuntos de dados Multilíngues, que muitas vezes são mal coletados e não representam a diversidade de idiomas. Há uma demanda significativa por conjuntos de dados de alta qualidade que sejam acessíveis e utilizáveis para o treinamento de LLMs em várias línguas.

Criando o CulturaX

Para criar o CulturaX, juntamos dois conjuntos de dados importantes: mC4 e OSCAR. Esses conjuntos são bem vistos por suas capacidades multilíngues, mas ainda precisam de uma limpeza e organização substanciais. Nosso objetivo foi mesclar essas fontes e aprimorá-las para criar um conjunto de dados de alta qualidade adequado para o treinamento de LLMs.

O processo incluiu várias etapas focadas na limpeza, organização e deduplicação dos dados. Cada passo teve como objetivo remover conteúdos indesejados, corrigir erros e garantir que o conjunto de dados contenha apenas textos de alta qualidade. Esse processo metódico nos permite fornecer um recurso robusto para pesquisadores e desenvolvedores.

Processo de Limpeza de Dados

Limpar os dados foi um passo crucial na criação do CulturaX. Queríamos remover conteúdos de baixa qualidade que poderiam confundir ou atrapalhar o treinamento. O processo de limpeza envolveu várias etapas:

Identificação de Língua

Identificar corretamente a língua dos documentos de texto é vital para criar um conjunto de dados multilíngue. Usamos ferramentas avançadas para garantir que cada documento esteja rotulado com sua respectiva língua. Quaisquer documentos que não atingissem um alto nível de confiança na identificação da língua foram removidos.

Filtragem Baseada em URL

Para proteger o conjunto de dados de conteúdos prejudiciais, implementamos um processo de filtragem que removeu materiais de fontes conhecidas como tóxicas. Usando uma lista atualizada de URLs prejudiciais, garantimos que nosso conjunto de dados excluísse páginas de sites que promovem violência, discurso de ódio ou conteúdo adulto. Esse passo ajuda a criar um recurso mais seguro e confiável.

Limpeza Baseada em Métricas

Estabelecemos várias métricas para medir a qualidade de cada documento. Essas métricas incluíam contagens de palavras, proporções de caracteres especiais e pontuações de legibilidade. Ao analisar essas métricas, conseguimos filtrar documentos que não atendiam aos nossos padrões de qualidade.

Refinamento de Documentos

Depois de limpar o conjunto de dados como um todo, refinamos ainda mais documentos individuais para melhorar sua qualidade. Isso incluía remover partes desnecessárias dos documentos, como tags HTML irrelevantes ou scripts. O objetivo era garantir que o conteúdo restante fosse limpo e coerente.

Deduplicação de Dados

Apesar da limpeza minuciosa, ainda pode haver informações repetidas no conjunto de dados. Duplicatas podem surgir de várias fontes, como conteúdos repostados ou artigos semelhantes. Remover essas duplicatas é essencial para garantir que o modelo não memorize informações, o que pode prejudicar seu desempenho geral.

Deduplicação MinHash

Aplicamos uma técnica chamada MinHash para identificar e remover documentos semelhantes. Essa técnica nos permite encontrar duplicatas de forma eficiente com base no conteúdo do texto em vez de apenas correspondências exatas. Esse método nos ajudou a manter um conjunto de dados de alta qualidade.

Deduplicação Baseada em URL

Além do MinHash, eliminamos documentos que compartilhavam as mesmas URLs, garantindo que não incluíssemos várias versões do mesmo artigo. Esse passo ajuda a evitar qualquer confusão durante o processo de treinamento.

Visão Geral do Conjunto de Dados Final

Após todas as etapas de limpeza e deduplicação, o CulturaX compreende impressionantes 6,3 trilhões de tokens em 167 línguas. Isso representa uma conquista significativa no campo dos conjuntos de dados de treinamento multilíngue. Nosso pipeline de limpeza de dados demonstrou eficácia ao reduzir significativamente o número de documentos, com quase metade dos documentos originais sendo filtrados por problemas de qualidade.

A Necessidade de Conjuntos de Dados Multilíngues

À medida que o mundo se torna cada vez mais interconectado, a necessidade de tecnologia multilíngue cresce. Muitos dispositivos e aplicativos podem se beneficiar do suporte a línguas além do inglês. No entanto, alcançar esse objetivo requer conjuntos de dados que representem com precisão diferentes culturas e línguas.

O foco no inglês nos conjuntos de dados de treinamento de LLMs deixou uma lacuna na capacidade desses modelos de se saírem bem em muitas outras línguas. Ao fornecer um grande conjunto de dados como o CulturaX, podemos ajudar a equilibrar as oportunidades na tecnologia de linguagem, permitindo que pesquisadores e desenvolvedores criem soluções inovadoras que atendam a diversas necessidades linguísticas.

Conclusão

O CulturaX é um recurso inovador voltado para fomentar o desenvolvimento de modelos de linguagem multilíngues. Ao fornecer um conjunto de dados de alta qualidade composto por 6,3 trilhões de tokens em 167 línguas, esperamos incentivar pesquisa, inovação e avanços no campo do processamento de linguagem natural. A disponibilidade pública do CulturaX representa um passo significativo em direção à transparência no treinamento de LLMs e um compromisso em democratizar o acesso à tecnologia de linguagem. Através de tais esforços, esperamos reduzir a lacuna entre idiomas e criar um ambiente digital mais inclusivo.

Fonte original

Título: CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages

Resumo: The driving factors behind the development of large language models (LLMs) with impressive learning capabilities are their colossal model sizes and extensive training datasets. Along with the progress in natural language processing, LLMs have been frequently made accessible to the public to foster deeper investigation and applications. However, when it comes to training datasets for these LLMs, especially the recent state-of-the-art models, they are often not fully disclosed. Creating training data for high-performing LLMs involves extensive cleaning and deduplication to ensure the necessary level of quality. The lack of transparency for training data has thus hampered research on attributing and addressing hallucination and bias issues in LLMs, hindering replication efforts and further advancements in the community. These challenges become even more pronounced in multilingual learning scenarios, where the available multilingual text datasets are often inadequately collected and cleaned. Consequently, there is a lack of open-source and readily usable dataset to effectively train LLMs in multiple languages. To overcome this issue, we present CulturaX, a substantial multilingual dataset with 6.3 trillion tokens in 167 languages, tailored for LLM development. Our dataset undergoes meticulous cleaning and deduplication through a rigorous pipeline of multiple stages to accomplish the best quality for model training, including language identification, URL-based filtering, metric-based cleaning, document refinement, and data deduplication. CulturaX is fully released to the public in HuggingFace to facilitate research and advancements in multilingual LLMs: https://huggingface.co/datasets/uonlp/CulturaX.

Autores: Thuat Nguyen, Chien Van Nguyen, Viet Dac Lai, Hieu Man, Nghia Trung Ngo, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen

Última atualização: 2023-09-17 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.09400

Fonte PDF: https://arxiv.org/pdf/2309.09400

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes