Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio

WanJuan-CC: Un Nuovo Dataset per Modelli Linguistici

Un dataset di alta qualità per addestrare modelli linguistici a partire da contenuti web in inglese.

― 4 leggere min


Panoramica del datasetPanoramica del datasetWanJuan-CCformazione del modello linguistico.Dati di alta qualità per un'efficace
Indice

WanJuan-CC è un dataset open-source creato da contenuti web in inglese raccolti da Common Crawl. Questo dataset ha lo scopo di fornire dati sicuri e di alta qualità per addestrare modelli di linguaggio. Affronta le difficoltà nel raccogliere grandi quantità di dati affidabili necessari per addestrare efficacemente questi modelli.

Importanza dei Grandi Dataset

I modelli di linguaggio, che vengono usati in tante applicazioni come chatbot e servizi di traduzione, hanno bisogno di grandi volumi di dati per imparare. Questi dati li aiutano a capire schemi linguistici, grammatica, contesto e significato. Raccogliere dati di alta qualità può essere una sfida, soprattutto quando si tratta di dati da internet.

Il Processo di Creazione di WanJuan-CC

Per creare WanJuan-CC, è stato messo in atto un processo accurato per filtrare e organizzare i dati. La procedura prevede diversi passaggi:

  1. Estrazione dei Dati: Le informazioni vengono prelevate dalle pagine web raccolte da Common Crawl.
  2. Filtraggio: Vengono applicate regole euristiche per ripulire i dati. Questo include la rimozione di errori, problemi di formattazione e contenuti irrilevanti.
  3. Deduplicazione: Vengono identificate e rimosse le voci duplicate. Questo significa che qualsiasi contenuto ripetuto non ingombra il dataset.
  4. Filtraggio della Sicurezza: I contenuti che potrebbero essere dannosi o offensivi, come commenti tossici o materiale esplicito, vengono filtrati.
  5. Filtraggio di Qualità: Controlli ulteriori assicurano che i dati non siano solo sicuri, ma anche utili per addestrare i modelli.

La Scala di WanJuan-CC

I dati originali raccolti da Common Crawl contenevano circa 68 miliardi di documenti in inglese. Dopo il processo, il team è riuscito a ottenere circa 2,22 trilioni di Token di informazioni sicure. Da questi, hanno selezionato 1 trilione di token ritenuti di alta qualità per il dataset. Hanno anche reso disponibili 100 miliardi di token al pubblico come dati open-source.

Sfide nell'Usare Dati di Common Crawl

Common Crawl offre una quantità enorme di dati, ma include anche molti contenuti di bassa qualità. Questo include link rotti, pubblicità e testi duplicati. Questi dati possono confondere i modelli di linguaggio e portare a risultati inaccurati. Inoltre, alcuni contenuti possono essere dannosi o violare la privacy degli utenti, come informazioni personali identificabili (PII).

Per combattere questi problemi, il team dietro WanJuan-CC ha progettato un sistema di elaborazione dei dati accurato che filtra contenuti di bassa qualità e non sicuri. Questo assicura che il dataset risultante sia affidabile e appropriato per l'addestramento dei modelli.

Strategie di Filtraggio

Sono state impiegate diverse strategie per garantire che solo i migliori dati siano inclusi in WanJuan-CC:

  • Filtraggio Euristico: Sono state create regole specifiche per catturare e rimuovere errori evidenti nei dati, come testi illeggibili o righe vuote.
  • Classificatori di Tossicità e Pornografia: Modelli specializzati addestrati per identificare contenuti dannosi sono stati usati per eliminare commenti tossici o materiali espliciti.
  • Mascheramento di PII: Sono state utilizzate espressioni regolari per mascherare informazioni personali come nomi, indirizzi email e numeri di telefono, proteggendo la privacy.

Valutazione della qualità di WanJuan-CC

Per accertare la qualità dei dati inclusi in WanJuan-CC, sono stati stabiliti vari metriche di valutazione. Queste metriche hanno esaminato diversi aspetti del dataset, come quanto siano puliti e utili i dati, e quanto bene preservino la privacy degli utenti. Il team ha utilizzato sia metodi automatizzati che valutazioni umane per valutare la qualità.

Valutazione delle Prestazioni

Per testare quanto sia efficace WanJuan-CC, i ricercatori hanno addestrato diverse versioni di modelli di linguaggio usando questo dataset e hanno confrontato le loro prestazioni con quelle addestrate con altre fonti di dati. Le valutazioni hanno mostrato che i modelli addestrati su WanJuan-CC hanno avuto prestazioni migliori in vari compiti, inclusa la comprensione del contesto e la generazione di frasi coerenti.

Confronto con Altri Dataset

WanJuan-CC è stato confrontato con altri dataset che utilizzano anche dati di Common Crawl. Questa analisi ha mostrato che, sebbene esistano molti dataset, pochi eguagliano il rigoroso filtraggio e i controlli di qualità implementati da WanJuan-CC. Ad esempio, molti altri dataset non utilizzano tecniche avanzate per filtrare contenuti dannosi.

Direzioni Future

Il lavoro svolto per creare WanJuan-CC getta le basi per ulteriori miglioramenti nei dataset di addestramento per i modelli di linguaggio. C'è ancora spazio per miglioramenti nei processi utilizzati per il filtraggio e il controllo della qualità. Le ricerche future potrebbero anche esplorare nuove applicazioni per il dataset in vari settori dell'elaborazione del linguaggio naturale, come la sintesi di testo e le risposte a domande.

Conclusione

WanJuan-CC rappresenta una risorsa preziosa per ricercatori e sviluppatori interessati ai modelli di linguaggio. Fornendo un dataset sicuro, ben strutturato e di alta qualità, contribuisce significativamente allo sviluppo continuo nel campo dell'elaborazione del linguaggio naturale. Con l'aumento delle applicazioni, avere dati di addestramento di alta qualità diventerà ancora più essenziale. Il futuro dei modelli di linguaggio sembra promettente con dataset come WanJuan-CC a guidare la strada.

Fonte originale

Titolo: WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset

Estratto: This paper presents WanJuan-CC, a safe and high-quality open-sourced English webtext dataset derived from Common Crawl data. The study addresses the challenges of constructing large-scale pre-training datasets for language models, which require vast amounts of high-quality data. A comprehensive process was designed to handle Common Crawl data, including extraction, heuristic rule filtering, fuzzy deduplication, content safety filtering, and data quality filtering. From approximately 68 billion original English documents, we obtained 2.22T Tokens of safe data and selected 1.0T Tokens of high-quality data as part of WanJuan-CC. We have open-sourced 100B Tokens from this dataset. The paper also provides statistical information related to data quality, enabling users to select appropriate data according to their needs. To evaluate the quality and utility of the dataset, we trained 1B-parameter and 3B-parameter models using WanJuan-CC and another dataset, RefinedWeb. Results show that WanJuan-CC performs better on validation datasets and downstream tasks.

Autori: Jiantao Qiu, Haijun Lv, Zhenjiang Jin, Rui Wang, Wenchang Ning, Jia Yu, ChaoBin Zhang, Zhenxiang Li, Pei Chu, Yuan Qu, Jin Shi, Lindong Lu, Runyu Peng, Zhiyuan Zeng, Huanze Tang, Zhikai Lei, Jiawei Hong, Keyu Chen, Zhaoye Fei, Ruiliang Xu, Wei Li, Zhongying Tu, Lin Dahua, Yu Qiao, Hang Yan, Conghui He

Ultimo aggiornamento: 2024-03-17 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2402.19282

Fonte PDF: https://arxiv.org/pdf/2402.19282

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili