Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación y lenguaje

Lanzando un conjunto de datos completo en inglés

Un nuevo conjunto de datos busca mejorar la investigación en modelos de lenguaje y promover la transparencia.

― 8 minilectura


Nuevo conjunto de datosNuevo conjunto de datospara modelos de lenguajemodelos de lenguaje.para avanzar en la investigación deUn conjunto de datos completo lanzado
Tabla de contenidos

Los modelos de lenguaje son ahora herramientas esenciales para varias tareas que involucran el procesamiento del lenguaje natural. Sin embargo, los detalles exactos de cómo se crearon los modelos de lenguaje más potentes suelen no compartirse. Un aspecto clave que rara vez se discute es su data de preentrenamiento. La mayoría de los modelos de lenguaje comerciales no revelan esta información, y hasta los que son de código abierto rara vez proporcionan sus Conjuntos de datos de entrenamiento o un método claro para replicarlos. Esta falta de transparencia crea desafíos para los investigadores que intentan entender cómo la data de entrenamiento influye en las habilidades y limitaciones del modelo.

Para apoyar la investigación abierta en el preentrenamiento de modelos de lenguaje, estamos lanzando un conjunto de datos significativo que consta de tres billones de tokens de texto en inglés. Este conjunto de datos se construyó a partir de una amplia gama de fuentes, incluyendo contenido web, documentos académicos, código, libros de dominio público, redes sociales y entradas enciclopédicas. Además, estamos poniendo a disposición nuestras herramientas para curar datos para que otros investigadores las usen en más experimentos y para replicar nuestros esfuerzos.

En este documento, describimos el conjunto de datos, detallando sus principios de diseño, proceso de construcción y contenidos. También incluimos análisis y resultados del entrenamiento de modelos de lenguaje utilizando varias etapas de este conjunto de datos para resaltar prácticas importantes en la curación de datos. Estas incluyen el uso de filtros para la Calidad del contenido, gestión de entradas duplicadas y mezcla de datos de diferentes fuentes. El conjunto de datos se ha utilizado para entrenar OLMo, un Modelo de Lenguaje abierto de vanguardia y un marco enfocado en avanzar nuestro conocimiento en modelado de lenguaje.

Visión General del Corpus

El conjunto de datos está compuesto por tres billones de tokens muestreados de diversas fuentes, totalizando alrededor de 200 terabytes de texto en bruto. Ha sido cuidadosamente limpiado para satisfacer las necesidades del entrenamiento de modelos de lenguaje. Hoy en día, los modelos de lenguaje son centrales para muchas tareas de procesamiento del lenguaje natural, desde proporcionar respuestas hasta hacer resúmenes y facilitar el aprendizaje con pocos ejemplos.

La mayoría de los modelos de lenguaje más poderosos son desarrollados por unas pocas organizaciones que mantienen ocultas la mayoría de las partes de su proceso de desarrollo. Esto incluye declaraciones vagas sobre la composición de su data de preentrenamiento, incluso cuando los modelos se liberan para uso público. Como resultado, es difícil evaluar cómo la composición de la data de preentrenamiento afecta el rendimiento y las limitaciones del modelo. Esta falta de claridad puede obstaculizar el progreso científico y afectar cómo el público interactúa con estos modelos. Por lo tanto, nuestro objetivo es la apertura y la transparencia al liberar nuestro conjunto de datos y documentación sobre su creación, permitiendo que la comunidad investigadora más amplia analice y construya sobre nuestros hallazgos.

Nuestro objetivo principal es permitir que más investigadores y organizaciones se involucren en la investigación y el desarrollo de modelos de lenguaje. La transparencia en los datos ayuda a los usuarios de aplicaciones basadas en modelos de lenguaje a tomar mejores decisiones. Por ejemplo, estudios han vinculado la frecuencia de ciertos documentos o términos en la data de preentrenamiento con un mejor rendimiento en tareas relacionadas. Por lo tanto, proporcionar acceso a datos de preentrenamiento permitirá estudios empíricos que puedan investigar cómo la mezcla de datos afecta el comportamiento del modelo.

Composición del Conjunto de Datos

El conjunto de datos es una mezcla de varios tipos de contenido para capturar una visión amplia del uso del idioma inglés. Las fuentes del conjunto de datos incluyen:

  1. Datos Web: Recopilamos una cantidad sustancial de texto de Common Crawl, un conjunto de datos público que archiva información de todo Internet.
  2. Documentos Científicos: La investigación académica se incluyó extrayendo documentos de la base de datos Semantic Scholar.
  3. Código: Recopilamos código de programación de GitHub, enfocándonos en repositorios con licencias permisivas.
  4. Libros de Dominio Público: Obras literarias de Project Gutenberg, que alberga numerosos textos de dominio público, también fueron incluidas.
  5. Publicaciones en Redes Sociales: Recopilamos contenido de plataformas como Reddit para incorporar datos conversacionales.
  6. Contenido Enciclopédico: Obtuvimos artículos de Wikipedia y Wikibooks para agregar material de referencia confiable.

El conjunto de datos resultante no solo es grande, sino también diverso, asegurando que refleje varios dominios de conocimiento y estilos de escritura.

Procesamiento y Limpieza de Datos

Para preparar el conjunto de datos para su uso en el entrenamiento de modelos de lenguaje, implementamos un proceso de limpieza integral. Esto involucró varios pasos clave:

  • Filtrado de Idioma: Utilizamos herramientas automatizadas de identificación de idioma para asegurar que solo quedara texto en inglés en el conjunto de datos. Se eliminaron las páginas identificadas como no predominantemente en inglés.
  • Filtrado de Calidad: Se aplicaron diversos criterios para eliminar texto de baja calidad. Se excluyeron documentos que no cumplían con ciertos estándares de legibilidad o aquellos que contenían demasiados contenidos duplicados.
  • Filtrado de Contenido: Se eliminó sistemáticamente contenido que podría considerarse tóxico o dañino. Esto incluyó filtrar información personal identificable (PII) para proteger la privacidad de las personas.
  • Eliminación de Duplicados: Tomamos medidas para garantizar que las entradas duplicadas se minimizaran. Esto ayuda a mejorar la eficiencia del entrenamiento del modelo al reducir datos redundantes.

Estos métodos de filtrado y limpieza son cruciales para crear un conjunto de datos que sea de alta calidad y relevante para el entrenamiento de modelos de lenguaje.

Kit de Herramientas de Curación de Datos

Junto con el conjunto de datos, también lanzamos un kit de herramientas diseñado para la curación eficiente de datos. Este kit está destinado a ayudar a otros investigadores a replicar nuestros esfuerzos o desarrollar sus propios pipelines de datos. Puede funcionar en varias plataformas, incluyendo hardware de consumo estándar y sistemas distribuidos más grandes, lo que lo hace accesible para muchos usuarios.

El kit de herramientas incluye características para identificar el idioma, aplicar filtros de calidad y contenido tóxico, y manejar la deduplicación. Al usar este kit, los investigadores pueden adaptar sus enfoques de Procesamiento de Datos para satisfacer sus necesidades específicas o explorar nuevas avenidas en el entrenamiento de modelos de lenguaje.

Experimentos y Resultados

Como parte de esta iniciativa, se realizaron varios experimentos para evaluar la efectividad de diferentes prácticas de curación de datos. Nos enfocamos en varios aspectos, incluyendo:

  • El Impacto de la Calidad del Contenido: Evaluamos cómo las medidas tomadas para filtrar contenido de baja calidad afectaron el rendimiento del modelo. Los modelos entrenados en conjuntos de datos de alta calidad mostraron una mejor precisión en tareas posteriores.
  • Eficiencia de Eliminación de Duplicados: Al analizar modelos entrenados con y sin deduplicación, encontramos mejoras significativas en el tiempo y la eficiencia de entrenamiento cuando se eliminaron duplicados.
  • Estrategias de Mezcla de Datos: Examinamos cómo diferentes combinaciones de fuentes de datos influenciaron el rendimiento general de los modelos de lenguaje. Se hizo evidente que una mezcla cuidadosa de contenido web, académico y de redes sociales dio los mejores resultados.

Estos experimentos nos permitieron obtener valiosos conocimientos sobre cómo la curación de datos influye en el entrenamiento de modelos de lenguaje, proporcionando pautas para futuras investigaciones.

Conclusión

El lanzamiento de este conjunto de datos de tres billones de tokens marca un paso significativo hacia la transparencia en la investigación de modelos de lenguaje. Al proporcionar acceso a los datos y a los métodos utilizados para curarlos, buscamos fomentar un ambiente colaborativo donde los investigadores puedan construir sobre el trabajo de los demás. Esto no solo mejorará la calidad de los modelos de lenguaje, sino que también promoverá prácticas de desarrollo responsables.

El enfoque en la apertura y colaboración refleja nuestro compromiso de avanzar en el campo del procesamiento del lenguaje natural. Animamos a investigadores, desarrolladores y organizaciones a utilizar este conjunto de datos y kit de herramientas para sus propios proyectos y estudios, contribuyendo a la evolución continua de la tecnología del lenguaje.

A través de una cuidadosa curación, un análisis extenso y una colaboración abierta, esperamos apoyar el desarrollo de modelos de lenguaje más efectivos y confiables que puedan servir a una amplia gama de aplicaciones en el futuro.

Fuente original

Título: Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

Resumen: Information about pretraining corpora used to train the current best-performing language models is seldom discussed: commercial models rarely detail their data, and even open models are often released without accompanying training data or recipes to reproduce them. As a result, it is challenging to conduct and advance scientific research on language modeling, such as understanding how training data impacts model capabilities and limitations. To facilitate scientific research on language model pretraining, we curate and release Dolma, a three-trillion-token English corpus, built from a diverse mixture of web content, scientific papers, code, public-domain books, social media, and encyclopedic materials. We extensively document Dolma, including its design principles, details about its construction, and a summary of its contents. We present analyses and experimental results on intermediate states of Dolma to share what we have learned about important data curation practices. Finally, we open-source our data curation toolkit to enable reproduction of our work as well as support further research in large-scale data curation.

Autores: Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo

Última actualización: 2024-06-06 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2402.00159

Fuente PDF: https://arxiv.org/pdf/2402.00159

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Enlaces de referencia

Más de autores

Artículos similares