Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Avançando Modelos de Linguagem para Línguas Indicas

Uma nova abordagem pra melhorar os modelos de linguagem pra diversas línguas indianas.

― 4 min ler


Impulsionando Modelos deImpulsionando Modelos deLínguas Indianasentender melhor a língua.Melhorando a preparação de dados pra
Índice

Desenvolvemos um novo método pra preparar dados pra criar um modelo de linguagem grande que suporte várias línguas da Índia. Nossa abordagem usa várias fontes diferentes, como livros, artigos de notícias e Wikipedia, pra reunir uma variedade de textos. Criamos ferramentas especiais pra limpar esses dados e tirar qualquer conteúdo de baixa qualidade ou repetido. Isso ajuda a garantir que o modelo aprenda com os melhores exemplos.

Desafios com as Línguas Indic

A Índia tem muitas línguas diferentes, incluindo línguas indo-arianas, dravídicas e mundas. Embora existam muitos recursos que fornecem textos pra essas línguas, a maioria dos modelos de linguagem existentes não as suporta bem. Essa falta de suporte limita a inovação e o progresso porque não tem Dados de alta qualidade suficientes. Recursos chave como EMILLE/CIIL e Wikipedia para línguas indianas ajudam um pouco, mas ainda assim ficam abaixo em quantidade e qualidade pra treinar modelos de linguagem.

Fontes de Dados e Preparação

Pra criar nosso modelo de linguagem, juntamos dados de várias fontes, focando particularmente em línguas indic. Coletamos textos do Common Crawl, que é um grande arquivo de páginas da web, mas descobrimos que uma parte significativa desses dados era inútil ou conteúdo duplicado. Portanto, implementamos um processo pra limpar e organizar os dados.

No nosso processo de limpeza, usamos um método que remove itens duplicados. Isso é especialmente importante porque muitas páginas da web têm conteúdo sobreposto. Filtrando esses duplicados, melhoramos a qualidade dos dados, tornando-os mais úteis pra treinar nosso modelo.

Tokenização pra Línguas Indic

Tokenização é um passo chave na preparação de textos pra modelos de linguagem. Envolve quebrar o texto em pedaços menores, como palavras ou subpalavras, pra que os computadores consigam entender melhor. Métodos tradicionais de tokenização podem ser complexos e adaptados a línguas específicas. No entanto, precisamos de uma abordagem mais simples que funcione bem pra muitas línguas indic.

Usamos uma ferramenta de tokenização chamada SentencePiece, que cria modelos de subpalavras diretamente de texto bruto. Isso ajuda a treinar modelos sem precisar de listas de palavras pré-definidas. No nosso estudo, testamos diferentes tamanhos de vocabulário de tokens e descobrimos que aumentar o tamanho do vocabulário melhora o desempenho do modelo.

Importância de Dados de Alta Qualidade

Ter dados de alta qualidade é crucial pra desenvolver modelos de linguagem eficazes. Experimentamos várias técnicas de filtragem pra garantir que apenas dados limpos e relevantes fossem usados. Nesse processo, analisamos diferentes fatores, como a frequência das palavras e a qualidade geral das frases. Aplicando essas técnicas, acabamos com um conjunto de dados mais confiável que contribui pra melhores resultados de aprendizado pro modelo.

Treinamento do Modelo e Resultados

Depois que tivemos nosso conjunto de dados limpo, seguimos pra treinar nosso modelo de linguagem. Montamos nosso treinamento em torno de um tokenizador multilíngue que mostrou resultados promissores. Quando comparamos nosso tokenizador personalizado com modelos existentes, como o Tiktoken da OpenAI, descobrimos que nosso tokenizador teve um desempenho melhor pra línguas indic.

A análise mostrou que nossa abordagem produziu menos erros e uma maior proporção de tokens significativos, tornando-se mais adequada pra rica estrutura linguística das línguas indianas. Isso é um avanço significativo que pode abrir o caminho pra um suporte melhor pra essas línguas na tecnologia.

Conclusão

Resumindo, criamos uma abordagem abrangente pra preparar dados e treinar um modelo de linguagem grande que seja capaz de entender e gerar textos em várias línguas indic. Ao juntar, limpar e processar dados meticulosamente, estabelecemos a base pra um modelo de linguagem que pode funcionar efetivamente nessas línguas diversas. Nosso trabalho enfatiza a importância de dados de qualidade e métodos inovadores de pré-processamento na evolução da tecnologia pra línguas que costumam ser ignoradas.

Conforme avançamos, esperamos que nossas descobertas ajudem a melhorar os modelos de linguagem e torná-los mais acessíveis pra um leque mais amplo de línguas, especialmente aquelas faladas na Índia.

Fonte original

Título: Pretraining Data and Tokenizer for Indic LLM

Resumo: We present a novel approach to data preparation for developing multilingual Indic large language model. Our meticulous data acquisition spans open-source and proprietary sources, including Common Crawl, Indic books, news articles, and Wikipedia, ensuring a diverse and rich linguistic representation. For each Indic language, we design a custom preprocessing pipeline to effectively eliminate redundant and low-quality text content. Additionally, we perform deduplication on Common Crawl data to address the redundancy present in 70% of the crawled web pages. This study focuses on developing high-quality data, optimizing tokenization for our multilingual dataset for Indic large language models with 3B and 7B parameters, engineered for superior performance in Indic languages. We introduce a novel multilingual tokenizer training strategy, demonstrating our custom-trained Indic tokenizer outperforms the state-of-the-art OpenAI Tiktoken tokenizer, achieving a superior token-to-word ratio for Indic languages.

Autores: Rahul Kumar, Shubham Kakde, Divyansh Rajput, Daud Ibrahim, Rishabh Nahata, Pidathala Sowjanya, Deepak Kumar

Última atualização: 2024-07-17 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.12481

Fonte PDF: https://arxiv.org/pdf/2407.12481

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes