Construyendo un corpus web japonés de alta calidad
Un corpus japonés robusto creado a partir de datos de Common Crawl mejora el rendimiento de los LLM.
― 8 minilectura
Tabla de contenidos
- Importancia de los Datos de Calidad
- El Archivo Common Crawl
- Tamaño del Corpus
- Verificación de Calidad
- Motivación para el Desarrollo
- Limitaciones de los Conjuntos de Datos Existentes
- Enfoque para Construir el Corpus
- Detección de Idioma
- Filtrado por Calidad
- Proceso de Deducción
- Filtrado por Nombre de Dominio
- Proceso de Limpieza
- Entrenamiento y Evaluación de Modelos
- Evaluación de Referencia
- Direcciones Futuras
- Conclusión
- Fuente original
- Enlaces de referencia
En los últimos años, ha habido un crecimiento significativo en el uso de modelos de lenguaje grandes (LLMs) para varias tareas en procesamiento de lenguaje natural (NLP). Estos modelos se han entrenado en diversas fuentes de datos para mejorar su capacidad de entender y generar texto. Sin embargo, muchos de los corpus existentes utilizados para entrenar LLMs en Japonés no han sido de alta Calidad.
Este artículo habla sobre la creación de un gran corpus web japonés a partir del archivo Common Crawl, que es una colección de páginas web rastreadas durante varios años. El objetivo es proporcionar mejores datos de entrenamiento para LLMs en japonés, mejorando su rendimiento.
Importancia de los Datos de Calidad
La efectividad de los LLMs depende en gran medida de la calidad de los datos en los que se entrenan. Muchos de los conjuntos de datos existentes para modelos de lenguaje japonés se han extraído de corpus multilingües más grandes, que a menudo no priorizan la calidad del texto japonés. Esta falta de enfoque puede llevar a modelos que tienen problemas con los matices del idioma.
Para abordar este tema, es esencial construir un corpus japonés dedicado que no solo proporcione una gran cantidad de texto, sino que también enfatice la calidad. Datos de entrenamiento de alta calidad permiten a los modelos entender mejor las complejidades del idioma, mejorando su rendimiento en varias tareas.
El Archivo Common Crawl
Para crear un corpus japonés de alta calidad, este proyecto extrajo texto del Common Crawl, un extenso repositorio de páginas web recopiladas a lo largo del tiempo. El archivo contiene instantáneas de internet, capturando una amplia variedad de contenido. El proyecto utilizó 21 instantáneas del archivo, abarcando aproximadamente 63.4 mil millones de páginas cosechadas entre 2020 y 2023.
Tamaño del Corpus
El nuevo corpus web japonés consta de alrededor de 312.1 mil millones de caracteres, lo que equivale a aproximadamente 173 millones de páginas. Esto lo convierte en el corpus más grande de su tipo para entrenar LLMs en japonés, superando conjuntos de datos previamente utilizados como CC-100, mC4 y OSCAR, que incluyen cantidades más pequeñas de texto en japonés.
Verificación de Calidad
Para asegurar la efectividad del nuevo corpus creado, los investigadores realizaron un preentrenamiento continuo en LLMs conocidos, como Llama 2 y Mistral. Los resultados mostraron mejoras consistentes en el rendimiento en conjuntos de datos de referencia en japonés, confirmando que el nuevo corpus mejora con éxito las capacidades del modelo para entender y generar texto en japonés.
Motivación para el Desarrollo
La motivación para desarrollar mejores LLMs en japonés proviene de varios factores. Hay una necesidad de avanzar en la investigación en NLP, mientras se abordan preocupaciones de seguridad sobre la dependencia de empresas extranjeras. Con muchas empresas y universidades japonesas involucrándose activamente en el desarrollo de LLMs abiertos, hay una urgencia por tener mejores datos de entrenamiento específicamente enfocados en las necesidades del idioma japonés.
Limitaciones de los Conjuntos de Datos Existentes
Numerosos conjuntos de datos japoneses existentes sufren de problemas de calidad. Por ejemplo, a menudo incorporan ruido de los procesos de conversión de HTML a texto, lo que conduce a datos corruptos o poco refinados. Dado que muchos de estos conjuntos de datos se crearon en contextos multilingües, no abordan necesariamente las complejidades del japonés.
Enfoque para Construir el Corpus
Este proyecto se centró en construir un corpus web japonés a gran escala y de alta calidad con varios pasos clave:
Extracción de Texto Japonés: La fase inicial implica extraer texto de archivos WARC en Common Crawl. El proceso comienza accediendo a las instantáneas almacenadas en Amazon S3, utilizando herramientas para extraer contenido HTML para un análisis posterior.
Selección de Texto de Alta Calidad: Después de extraer el texto, se aplica un proceso de filtrado para asegurar que solo se incluya contenido japonés de alta calidad. Esta selección es crucial para eliminar ruido innecesario.
Limpieza del Texto: Por último, el texto extraído se somete a limpieza para asegurarse de que se presente en un formato consistente y utilizable. Este paso implica normalizar la puntuación y eliminar cualquier componente irrelevante que haya quedado.
Detección de Idioma
Un desafío significativo durante el proceso de extracción implica detectar con precisión el idioma japonés dentro de la gran cantidad de datos. Para abordar esto, el proyecto empleó un método rápido de detección de idioma que identifica eficientemente el contenido japonés sin necesidad de analizar cada página en detalle. Este enfoque optimizado reduce significativamente el tiempo de procesamiento mientras mantiene un alto nivel de precisión.
Filtrado por Calidad
El proceso de filtrado de calidad presenta múltiples pasos:
- Eliminación de Duplicados: Se elimina el contenido que es repetitivo o no informativo para asegurar que el corpus contenga solo texto útil.
- Establecimiento de Normas de Calidad: Se establecieron varias reglas para determinar qué constituye un texto japonés de alta calidad. Estas reglas abordan factores como el recuento de caracteres, el uso del idioma y la estructura de las oraciones.
Al emplear estas técnicas de filtrado, el corpus final retiene una cantidad significativa de contenido valioso mientras descarta datos irrelevantes o de baja calidad.
Proceso de Deducción
Después de filtrar por calidad, la siguiente fase implica la deduplicación, que elimina entradas redundantes dentro del corpus. Usando un método llamado MinHash, el proyecto identifica documentos duplicados y retiene solo las versiones más recientes. Este enfoque mejora la eficiencia del entrenamiento al asegurarse de que los modelos no memoricen información repetitiva.
Filtrado por Nombre de Dominio
Para refinar aún más el corpus, se estableció un sistema de filtrado basado en nombres de dominio. Se bloquearon ciertos sitios web conocidos por producir contenido de baja calidad o material dañino. Esta etapa elevó significativamente el estándar general del corpus.
Proceso de Limpieza
El proceso de limpieza tiene como objetivo asegurar que el texto esté listo para su uso en el entrenamiento de LLMs. Esto incluye ediciones menores como normalizar la puntuación y eliminar cualquier texto de pie de página que no se filtró en etapas anteriores. Esta cuidadosa limpieza ayuda a mantener la calidad y consistencia general de los datos.
Entrenamiento y Evaluación de Modelos
Para evaluar la efectividad del nuevo corpus creado, se seleccionaron varios LLMs prominentes para un preentrenamiento continuo. Estos modelos, que ya están bien versados en inglés, fueron afinados usando el corpus web japonés junto con otras fuentes como Wikipedia japonesa.
El proceso de entrenamiento implicó preparar una mezcla del nuevo corpus japonés y otros conjuntos de datos para equilibrar el conocimiento de japonés e inglés. Como resultado, estos modelos adquirieron habilidades mejoradas en la comprensión y generación de texto en japonés, como se evidencia por las mejoras en el rendimiento en varias tareas de referencia.
Evaluación de Referencia
Durante la fase de evaluación, los modelos fueron probados contra un conjunto de conjuntos de datos de referencia en japonés. Estas evaluaciones cubrieron diferentes tipos de tareas, como responder preguntas de opción múltiple, comprensión lectora e inferencia de lenguaje natural. Las mejoras de rendimiento observadas durante estas evaluaciones destacaron la efectividad del nuevo corpus japonés en tareas que requieren una comprensión más profunda del idioma.
Direcciones Futuras
Aunque este proyecto estableció con éxito un gran corpus web japonés, aún hay muchas vías para crecer. El trabajo futuro tiene como objetivo mejorar las medidas de seguridad para los LLMs al reducir la generación de contenido dañino. Es importante seguir desarrollando métodos de filtrado más robustos para asegurar que los datos de entrenamiento sigan siendo beneficiosos y libres de sesgos.
Además, mientras el enfoque actual se mantiene en el preentrenamiento continuo, también es prioridad explorar métodos para entrenar LLMs en japonés desde cero. El objetivo es evaluar la efectividad del corpus no solo en tareas soportadas, sino también en capturar una comprensión más amplia del idioma.
Conclusión
En resumen, este proyecto ha construido con éxito un sustancial corpus web japonés al extraer y refinar texto del archivo Common Crawl. El conjunto de datos resultante se presenta como el más grande disponible para entrenar LLMs en japonés, y su eficacia ha sido validada a través de experimentos de preentrenamiento que demuestran mejoras consistentes en rendimiento.
El enfoque en la calidad, los metodos de extracción meticulosos y los rigurosos procesos de filtrado han dado como resultado un recurso utilizable que puede mejorar significativamente el entrenamiento y el rendimiento de los modelos de lenguaje japonés. A medida que el trabajo futuro continúa refinando y desarrollando este corpus, hay un gran potencial para avanzar en las capacidades de procesamiento de lenguaje natural en el contexto japonés.
Título: Building a Large Japanese Web Corpus for Large Language Models
Resumen: Open Japanese large language models (LLMs) have been trained on the Japanese portions of corpora such as CC-100, mC4, and OSCAR. However, these corpora were not created for the quality of Japanese texts. This study builds a large Japanese web corpus by extracting and refining text from the Common Crawl archive (21 snapshots of approximately 63.4 billion pages crawled between 2020 and 2023). This corpus consists of approximately 312.1 billion characters (approximately 173 million pages), which is the largest of all available training corpora for Japanese LLMs, surpassing CC-100 (approximately 25.8 billion characters), mC4 (approximately 239.7 billion characters) and OSCAR 23.10 (approximately 74 billion characters). To confirm the quality of the corpus, we performed continual pre-training on Llama 2 7B, 13B, 70B, Mistral 7B v0.1, and Mixtral 8x7B Instruct as base LLMs and gained consistent (6.6-8.1 points) improvements on Japanese benchmark datasets. We also demonstrate that the improvement on Llama 2 13B brought from the presented corpus was the largest among those from other existing corpora.
Autores: Naoaki Okazaki, Kakeru Hattori, Hirai Shota, Hiroki Iida, Masanari Ohi, Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Rio Yokota, Sakae Mizuki
Última actualización: 2024-04-26 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2404.17733
Fuente PDF: https://arxiv.org/pdf/2404.17733
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.together.ai/blog/redpajama-data-v2
- https://huggingface.co/tokyotech-llm
- https://commoncrawl.org/
- https://archive.org/web/researcher/ArcFileFormat.php
- https://iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/
- https://commoncrawl.github.io/cc-crawl-statistics/
- https://github.com/CLD2Owners/cld2
- https://github.com/facebookresearch/cc_net
- https://huggingface.co/datasets/cc100
- https://data.commoncrawl.org/
- https://github.com/webrecorder/warcio
- https://trafilatura.readthedocs.io/
- https://dsi.ut-capitole.fr/blacklists/
- https://github.com/llm-jp/llm-jp-
- https://github.com/llm-jp/llm-jp-eval
- https://github.com/Stability-AI/lm-evaluation-harness/tree/jp-stable
- https://dumps.wikimedia.org/other/cirrussearch/
- https://www.csie.ntu.edu.tw/~cjlin/liblinear/
- https://github.com/whatlang/whatlang-corpora
- https://huggingface.co/meta-llama/Llama-2-7b-hf
- https://huggingface.co/meta-llama/Llama-2-13b-hf
- https://huggingface.co/meta-llama/Llama-2-70b-hf
- https://huggingface.co/mistralai/Mistral-7B-v0.1
- https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
- https://huggingface.co/cyberagent/calm2-7b
- https://huggingface.co/stabilityai/japanese-stablelm-base-beta-7b
- https://huggingface.co/rinna/youri-7b
- https://huggingface.co/Qwen/Qwen-7B
- https://huggingface.co/rinna/nekomata-7b
- https://huggingface.co/stabilityai/japanese-stablelm-base-gamma-7b
- https://huggingface.co/Qwen/Qwen-14B
- https://huggingface.co/karakuri-ai/karakuri-lm-70b-v0.1
- https://huggingface.co/stabilityai/japanese-stablelm-base-beta-70b
- https://huggingface.co/Qwen/Qwen-72B