Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Presentamos FineWeb: un nuevo conjunto de datos para modelos de lenguaje

FineWeb ofrece 15 billones de tokens para mejorar el entrenamiento de modelos de lenguaje.

― 9 minilectura


FineWeb: Cambio de JuegoFineWeb: Cambio de Juegopara Modelos de Lenguajesuperior del modelo de lenguaje.entrenamiento para un rendimientoRevoluciona los conjuntos de datos de
Tabla de contenidos

Los grandes modelos de lenguaje (LLMs), que son programas de computadora que pueden entender y generar lenguaje humano, dependen mucho de los datos con los que son entrenados. La calidad y la cantidad de estos datos juegan un papel importante en el rendimiento de estos modelos en sus tareas. Desafortunadamente, muchos de los conjuntos de datos utilizados para entrenar modelos avanzados como Llama 3 y Mixtral no son de acceso público, y sabemos muy poco sobre cómo fueron elaborados.

Este artículo presenta FineWeb, un gran conjunto de datos que contiene 15 billones de tokens, o fragmentos de texto, recopilados de 96 instantáneas de Common Crawl. FineWeb está diseñado para ayudar a crear modelos de lenguaje con mejor rendimiento en comparación con otros conjuntos de datos abiertos. Al compartir cómo se hizo FineWeb, junto con los métodos utilizados para filtrar y eliminar contenido de baja calidad, buscamos proporcionar información útil sobre la curación de conjuntos de datos de entrenamiento de alta calidad.

Antecedentes sobre los Modelos de Lenguaje

Los modelos de lenguaje se han convertido en herramientas esenciales porque pueden manejar una amplia gama de tareas de texto. El aumento en el tamaño de estos modelos ha llevado a la necesidad de conjuntos de datos más grandes para el entrenamiento. Sin embargo, no se trata solo de tamaño; la forma en que se procesan y filtran los datos también es importante. Eliminar texto de baja calidad y duplicados es crucial.

Las decisiones tomadas durante la creación de un conjunto de datos pueden influir en gran medida en el rendimiento posterior del modelo de lenguaje que se está entrenando. A pesar de su importancia, muchas empresas mantienen en secreto sus estrategias para la creación de conjuntos de datos, creando una brecha en el conocimiento entre conjuntos de datos privados y públicos.

¿Qué es FineWeb?

FineWeb tiene como objetivo cerrar esta brecha. Contiene una colección masiva de datos que se pueden usar para entrenar modelos de lenguaje competitivos. El conjunto de datos tiene 15 billones de tokens de texto obtenidos de 96 instantáneas de Common Crawl. Esto es suficiente dato para entrenar un modelo poderoso con más de 500 mil millones de parámetros.

La creación de FineWeb involucró elecciones cuidadosas sobre cómo filtrar y procesar los datos. También incluyó un trabajo extenso en deduplicación, que es el proceso de eliminar texto duplicado para mejorar la calidad de los datos de entrenamiento.

La Importancia de los Datos de Calidad

La calidad de los datos de entrenamiento es crítica. El texto web a menudo incluye lenguaje poco natural, lo que puede impactar negativamente en el rendimiento de los modelos de lenguaje. El texto mal estructurado, como contenido estándar o balbuceos, puede hacer que los modelos aprendan de manera menos efectiva. Por otro lado, filtrar demasiado puede dejar muy pocos datos, lo que también es un problema, ya que los modelos necesitan una cantidad suficiente de datos para aprender adecuadamente.

La duplicación en los datos de entrenamiento también puede obstaculizar el rendimiento del modelo. Aunque parece simple eliminar texto duplicado, el proceso implica muchas decisiones, como si deduplicar a nivel de línea, párrafo o documento. Los métodos utilizados en el proceso de filtrado y deduplicación de un conjunto de datos afectan significativamente los resultados del entrenamiento del modelo.

Construyendo FineWeb

Nuestro método para crear FineWeb se basó principalmente en la experimentación. Realizamos diversas pruebas para comparar diferentes estrategias de filtrado y deduplicación, siempre con el objetivo de asegurar que el rendimiento del modelo de lenguaje se mantuviera alto.

Entrenamos muchos modelos, todos configurados de la misma manera pero diferían en los datos con los que fueron entrenados. Esto nos permitió comparar su rendimiento en función de la calidad y características de los datos de entrenamiento.

Utilizamos una variedad de conjuntos de datos de referencia para evaluar los modelos. Al mantener las condiciones consistentes mientras probábamos modelos en diferentes conjuntos de datos, pudimos evaluar con precisión el impacto de la calidad de los datos en el rendimiento.

Proceso de Extracción de Datos

Los datos con los que trabajamos provienen de Common Crawl y estaban disponibles en dos formatos: WARC y WET. Los archivos WARC tienen el contenido HTML completo de las páginas web rastreadas, mientras que los archivos WET proporcionan una vista solo de texto. En nuestros estudios, descubrimos que los archivos WET a menudo contenían un exceso de texto estándar que no aportaba mucho valor.

Por lo tanto, decidimos extraer texto de manera más efectiva utilizando los archivos WARC y una herramienta llamada trafilatura. Este método condujo a un texto más claro y relevante, mejorando el rendimiento del modelo.

Pasos Iniciales de Filtrado

Para comenzar a filtrar nuestros datos extraídos, aplicamos un conjunto básico de reglas. Esto incluyó eliminar contenido para adultos, asegurarnos de que el texto estuviera en inglés y filtrar todo lo considerado de baja calidad o repetitivo. Después de aplicar estos pasos de filtrado, aún teníamos alrededor de 36 billones de tokens, una cantidad enorme con la que trabajar.

La duplicación se gestionó empleando técnicas para identificar contenido repetido, lo que ayudó a mejorar la experiencia de entrenamiento del modelo. Realizamos varios experimentos para encontrar la mejor manera de deduplicar, encontrando finalmente un método que funcionó bien a través del conjunto de datos.

Técnicas Avanzadas de Filtrado

A medida que ajustamos nuestros métodos, buscamos igualar o superar el rendimiento de otros conjuntos de datos establecidos. Investigamos reglas de filtrado adicionales que se habían aplicado con éxito en conjuntos de datos anteriores.

Intentamos adoptar filtros del conjunto de datos C4, que era conocido por su sólido rendimiento. Nuestro filtrado incluyó reglas como eliminar líneas que no terminaban con la puntuación adecuada y eliminar contenido que era demasiado corto o no relevante para fines educativos.

Evaluamos cuidadosamente estos filtros para asegurarnos de que mejoraran nuestro conjunto de datos sin eliminar demasiados datos valiosos. En última instancia, logramos refinar nuestro proceso, obteniendo resultados mejorados a través de un filtrado cuidadoso.

Desarrollo de Filtros Personalizados

Además de los filtros establecidos, desarrollamos nuestro propio conjunto de filtros heurísticos. Recopilamos métricas de conjuntos de datos de alta calidad y baja calidad para definir qué hacía que el contenido fuera valioso. Esto implicó observar características del documento como la longitud de las palabras y la repetición.

Experimentamos con diferentes umbrales para determinar el mejor corte para filtrar contenido de baja calidad. Al aplicar estos nuevos filtros, pudimos hacer que FineWeb fuera aún mejor y más alineado con las necesidades del entrenamiento del modelo de lenguaje.

Finalizando FineWeb

Después de múltiples mejoras y estrategias, se formó el conjunto de datos final de FineWeb. Cada paso del procesamiento de datos, desde la extracción hasta el filtrado y la deduplicación, contribuyó a su calidad general.

El conjunto de datos fue cuidadosamente preparado para eliminar información de identificación personal también, aumentando su utilidad mientras se protegía la privacidad individual. Al final, FineWeb se presentó como un impresionante conjunto de datos para entrenar modelos de lenguaje.

Introducción a FineWeb-Edu

Reconociendo el creciente interés en materiales educativos, también creamos FineWeb-Edu. Este conjunto de datos comprende 1.3 billones de tokens filtrados específicamente para texto educativo de alta calidad. El objetivo no solo era proporcionar mejor contenido, sino también mejorar el rendimiento del modelo en tareas que requerían aplicación de conocimiento y razonamiento.

FineWeb-Edu supera a otros conjuntos de datos públicos en múltiples evaluaciones, particularmente en benchmarks educativos. Utilizamos un clasificador para determinar la calidad educativa del texto, filtrándolo según esta evaluación.

Entrenando el Clasificador

Para crear FineWeb-Edu, generamos anotaciones sintéticas al puntuar muestras de FineWeb. Esto se hizo utilizando un modelo de lenguaje avanzado entrenado en una vasta cantidad de contenido educativo. Al aplicar estas puntuaciones, pudimos filtrar FineWeb de manera efectiva hasta obtener contenido que realmente fuera beneficioso para propósitos educativos.

El conjunto de datos resultante mejora drásticamente el rendimiento en benchmarks que requieren pensamiento crítico y aplicación de conocimiento.

Abordando el Sesgo en los Conjuntos de Datos

Una preocupación significativa en los modelos de lenguaje es el sesgo. Dado que los modelos aprenden de los datos que se les alimentan, si esos datos contienen lenguaje sesgado, es probable que los modelos reflejen esos Sesgos. Examinamos FineWeb en busca de sesgos relacionados con grupos sensibles o protegidos en la sociedad.

Nuestro análisis reveló que ciertos grupos estaban sobrerrepresentados en contextos específicos. Sin embargo, FineWeb-Edu mostró una reducción en los sesgos, lo que indica que el filtrado educativo ayudó a crear un conjunto de datos más equilibrado.

Conclusiones

En resumen, hemos desarrollado FineWeb y FineWeb-Edu como recursos significativos para el entrenamiento de grandes modelos de lenguaje. FineWeb, con sus 15 billones de tokens, está diseñado para mejorar el rendimiento del modelo y la comprensión del lenguaje, mientras que FineWeb-Edu se centra en proporcionar contenido educativo de alta calidad.

Ambos conjuntos de datos han pasado por extensas pruebas y refinamientos, asegurando que cumplan con altos estándares de calidad. Esperamos que al compartir estos conjuntos de datos, junto con nuestros métodos y hallazgos, podamos contribuir positivamente al campo del modelado del lenguaje y allanar el camino para futuras investigaciones y avances.

Fuente original

Título: The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale

Resumen: The performance of a large language model (LLM) depends heavily on the quality and size of its pretraining dataset. However, the pretraining datasets for state-of-the-art open LLMs like Llama 3 and Mixtral are not publicly available and very little is known about how they were created. In this work, we introduce FineWeb, a 15-trillion token dataset derived from 96 Common Crawl snapshots that produces better-performing LLMs than other open pretraining datasets. To advance the understanding of how best to curate high-quality pretraining datasets, we carefully document and ablate all of the design choices used in FineWeb, including in-depth investigations of deduplication and filtering strategies. In addition, we introduce FineWeb-Edu, a 1.3-trillion token collection of educational text filtered from FineWeb. LLMs pretrained on FineWeb-Edu exhibit dramatically better performance on knowledge- and reasoning-intensive benchmarks like MMLU and ARC. Along with our datasets, we publicly release our data curation codebase and all of the models trained during our ablation experiments.

Autores: Guilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel, Leandro Von Werra, Thomas Wolf

Última actualización: 2024-10-31 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2406.17557

Fuente PDF: https://arxiv.org/pdf/2406.17557

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares