Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje# Inteligencia artificial

Presentamos a Zyda: Un nuevo conjunto de datos para modelos de lenguaje

Zyda, un conjunto de datos con 1.3 billones de tokens, mejora el entrenamiento de modelos de lenguaje.

― 7 minilectura


Zyda Dataset: Calidad enZyda Dataset: Calidad enFocode modelos de lenguaje.los conjuntos de datos de entrenamientoZyda establece un nuevo estándar para
Tabla de contenidos

En los últimos años, los modelos de lenguaje grandes (LLMs) han crecido mucho más y se han vuelto más complejos. Con este aumento, también ha subido drásticamente la cantidad de datos y poder de cómputo necesarios para entrenar estos modelos. Los LLMs modernos a menudo requieren entrenarse con al menos un billón de tokens, que son pedazos de texto de los que los modelos aprenden. Sin embargo, a medida que estos modelos han avanzado, la disponibilidad de conjuntos de datos de código abierto para entrenarlos no ha ido a la par, lo que hace difícil que investigadores y desarrolladores accedan a los datos que necesitan.

Para abordar esta brecha, se ha creado un nuevo conjunto de datos llamado Zyda. Zyda es un conjunto de datos abierto que contiene 1.3 billones de tokens. Se ha construido fusionando varios conjuntos de datos de código abierto conocidos en una sola colección de alta Calidad. Este documento discute cómo se creó Zyda, los pasos que se tomaron para asegurar su calidad y cómo se compara con otros conjuntos de datos.

Creación del Conjunto de Datos

Zyda se formó tomando varios conjuntos de datos abiertos establecidos que son reconocidos por su calidad. Esta selección incluyó fuentes populares en el campo del modelado del lenguaje. Se hizo un gran esfuerzo para filtrar los datos y eliminar documentos de baja calidad o duplicados. Esto involucró un proceso de limpieza exhaustivo que buscaba asegurar que el conjunto de datos final fuera útil para entrenar modelos de manera efectiva.

Los conjuntos de datos principales usados para crear Zyda incluyen:

  • The Pile
  • SlimPajama
  • RefinedWeb
  • C4
  • PeS2o
  • arxivs2orcparsed
  • StarCoder

Estos conjuntos de datos se combinaron, y se aplicaron procesos de filtrado adicionales para mejorar aún más la calidad. El objetivo principal era crear un conjunto de datos unificado que pudiera servir como una base sólida para entrenar modelos de lenguaje.

Importancia de la Calidad del Conjunto de Datos

Mientras los investigadores siguen desarrollando LLMs, la importancia de la calidad de los datos de entrenamiento se está volviendo más clara. Los conjuntos de datos de calidad conducen a un mejor rendimiento del modelo. Por ejemplo, los modelos anteriores a menudo se entrenaban con datos web sin filtrar, que contenían mucho ruido e información irrelevante. En cambio, las técnicas modernas se enfocan en producir conjuntos de datos más limpios a través de un filtrado cuidadoso.

Este control de calidad significa que los conjuntos de datos ya no son simplemente sobre volumen; tener más tokens está bien, pero tener tokens de alta calidad es mucho mejor. Años de investigación indican que filtrar conjuntos de datos para eliminar contenido de baja calidad resulta en mejores resultados del modelo.

Métodos de Filtrado

El conjunto de datos Zyda pasó por varias etapas de filtrado para asegurar su calidad. Se emplearon los siguientes métodos para limpiar los datos:

  1. Filtrado por Longitud: Se eliminaron documentos más cortos que una longitud establecida, ya que a menudo contenían poco contenido útil.

  2. Filtros Heurísticos: Estos filtros se enfocaron en problemas como texto sin sentido, cadenas sin significado y otros elementos de baja calidad. Ejemplos de estos filtros incluyen los basados en la proporción de ciertos caracteres o palabras.

  3. Filtros Específicos de Contenido: Se diseñaron ciertos filtros para identificar contenido objetable, como pornografía o spam. Se utilizó una lista de palabras específica para filtrar eficazmente estos tipos de contenido.

  4. Filtrado de Código: Algunos conjuntos de datos contenían código de programación que podría interferir con el modelado del lenguaje. Así que, el proceso de filtrado aseguraba que los documentos enfocados principalmente en texto fueran prioritarios sobre los dominados por código.

  5. Deducción de Duplicados: Se identificaron y eliminaron duplicados, tanto dentro de conjuntos de datos individuales como en toda la colección. Se utilizaron métodos avanzados para identificar documentos similares y asegurar que no quedaran duplicados.

Cada paso de filtrado fue cuidadosamente probado para su efectividad. El equipo buscaba mantener al mínimo el número de buenos documentos eliminados (falsos positivos) mientras aseguraba que la calidad general de Zyda fuera alta.

Resultados del Filtrado

Después de aplicar estos métodos de filtrado, se evaluó la calidad de Zyda en comparación con otros conjuntos de datos. Los modelos entrenados en Zyda tuvieron un mejor rendimiento en varias tareas de lenguaje en comparación con aquellos entrenados en otros conjuntos prominentes como Dolma y The Pile. Al asegurar una entrada de alta calidad, Zyda permitió obtener mejores resultados en tareas de modelado del lenguaje.

Notablemente, cuando se eliminaron ciertos subconjuntos de los conjuntos de datos, como StarCoder, el rendimiento de Zyda mejoró aún más. Esta observación destacó cómo el contenido que es menos relevante para las tareas de lenguaje puede obstaculizar el rendimiento si se incluye.

Comparación con Otros Conjuntos de Datos

Cuando Zyda se comparó con otros conjuntos de datos, se hizo evidente que ofrecía ventajas significativas. Los métodos de procesamiento de datos aplicados a Zyda crearon un conjunto de datos que no solo era más grande, sino también de mayor calidad que muchos de sus componentes. Por ejemplo, RefinedWeb, conocido por su calidad, tenía solo alrededor de 600 mil millones de tokens, que es mucho más pequeño que los 1.3 billones de tokens de Zyda.

La investigación mostró ganancias de rendimiento sólidas en varias evaluaciones, particularmente en tareas de razonamiento. Al proporcionar un conjunto de datos más grande y mejor curado, los LLMs entrenados en Zyda pudieron lograr mejores resultados en comparación con sus contrapartes entrenados en conjuntos de datos más pequeños.

Pasos Futuros para Mejorar el Conjunto de Datos

Si bien Zyda representa un avance significativo en conjuntos de datos de código abierto, todavía hay espacio para mejorar. Se podrían emplear más métodos para mejorar su calidad, incluyendo:

  • Filtrado Semántico: Esto podría involucrar usar modelos entrenados para evaluar la calidad del contenido, Filtrando de manera más efectiva datos menos relevantes o de menor calidad.

  • Técnicas de Agrupamiento: Agrupando documentos similares, se podrían identificar y eliminar outliers para refinar aún más el conjunto de datos.

  • Aumento: Agregar datos sintéticos o reformulados podría ayudar a mejorar la diversidad y calidad del material de entrenamiento.

Estos métodos requerirían recursos computacionales adicionales, pero podrían llevar a un mejor conjunto de entrenamiento que mejore el rendimiento del modelo.

Conclusión

La creación de Zyda representa un avance significativo en el campo de los conjuntos de datos de código abierto para modelos de lenguaje. Al fusionar múltiples conjuntos de datos de calidad y aplicar técnicas de filtrado y deduplicación exhaustivas, Zyda ofrece un recurso de alta calidad para investigadores y desarrolladores.

A medida que los LLMs continúan evolucionando, la demanda de conjuntos de datos de entrenamiento de alta calidad solo aumentará. Al enfocarse en la calidad sobre la cantidad, Zyda proporciona una herramienta valiosa que puede ayudar a impulsar futuros avances en el modelado del lenguaje.

Con esfuerzos adicionales para mejorar aún más su calidad, Zyda sienta una base sólida para modelos de lenguaje más capaces y eficientes en la comunidad de código abierto. Se erige como un paso clave hacia fomentar el desarrollo de modelos robustos y de última generación que puedan aprovechar lo mejor que los datos de código abierto tienen para ofrecer.

Fuente original

Título: Zyda: A 1.3T Dataset for Open Language Modeling

Resumen: The size of large language models (LLMs) has scaled dramatically in recent years and their computational and data requirements have surged correspondingly. State-of-the-art language models, even at relatively smaller sizes, typically require training on at least a trillion tokens. This rapid advancement has eclipsed the growth of open-source datasets available for large-scale LLM pretraining. In this paper, we introduce Zyda (Zyphra Dataset), a dataset under a permissive license comprising 1.3 trillion tokens, assembled by integrating several major respected open-source datasets into a single, high-quality corpus. We apply rigorous filtering and deduplication processes, both within and across datasets, to maintain and enhance the quality derived from the original datasets. Our evaluations show that Zyda not only competes favorably with other open datasets like Dolma, FineWeb, and RefinedWeb, but also substantially improves the performance of comparable models from the Pythia suite. Our rigorous data processing methods significantly enhance Zyda's effectiveness, outperforming even the best of its constituent datasets when used independently.

Autores: Yury Tokpanov, Beren Millidge, Paolo Glorioso, Jonathan Pilault, Adam Ibrahim, James Whittington, Quentin Anthony

Última actualización: 2024-09-03 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2406.01981

Fuente PDF: https://arxiv.org/pdf/2406.01981

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares