WanJuan-CC: Ein neues Dataset für Sprachmodelle
Ein hochwertiger Datensatz zum Trainieren von Sprachmodellen aus englischen Webinhalten.
― 4 min Lesedauer
Inhaltsverzeichnis
- Wichtigkeit grosser Datensätze
- Der Prozess zur Erstellung von WanJuan-CC
- Der Umfang von WanJuan-CC
- Herausforderungen bei der Verwendung von Common Crawl-Daten
- Filterstrategien
- Qualitätsbewertung von WanJuan-CC
- Leistungsevaluation
- Vergleich mit anderen Datensätzen
- Zukünftige Richtungen
- Fazit
- Originalquelle
- Referenz Links
WanJuan-CC ist ein Open-Source-Datensatz, der aus englischen Webinhalten erstellt wurde, die von Common Crawl gesammelt wurden. Dieser Datensatz soll sichere und hochwertige Daten für das Training von Sprachmodellen bereitstellen. Er geht die Schwierigkeiten an, grosse Mengen zuverlässiger Daten zu sammeln, die nötig sind, um diese Modelle effektiv zu trainieren.
Datensätze
Wichtigkeit grosserSprachmodelle, die in vielen Anwendungen wie Chatbots und Übersetzungsdiensten verwendet werden, benötigen grosse Datenmengen, um zu lernen. Diese Daten helfen ihnen, Sprachmuster, Grammatik, Kontext und Bedeutung zu verstehen. Hochwertige Daten zu sammeln, kann eine Herausforderung sein, besonders wenn man mit Daten aus dem Internet zu tun hat.
Der Prozess zur Erstellung von WanJuan-CC
Um WanJuan-CC zu erstellen, wurde ein sorgfältiger Prozess eingeführt, um die Daten zu Filtern und zu organisieren. Das Verfahren umfasst mehrere Schritte:
- Datenextraktion: Informationen werden von Webseiten entnommen, die Common Crawl gesammelt hat.
- Filtern: Heuristische Regeln werden angewendet, um die Daten zu bereinigen. Dazu gehört das Entfernen von Fehlern, Formatierungsproblemen und irrelevanten Inhalten.
- Duplikatsentfernung: Doppelte Einträge werden identifiziert und entfernt. So wird sichergestellt, dass sich wiederholte Inhalte nicht im Datensatz stauen.
- Sicherheitsfilterung: Inhalte, die schädlich oder anstössig sein könnten, wie toxische Kommentare oder explizites Material, werden herausgefiltert.
- Qualitätsfilterung: Weitere Kontrollen stellen sicher, dass die Daten nicht nur sicher, sondern auch nützlich für das Training von Modellen sind.
Der Umfang von WanJuan-CC
Die ursprünglichen Daten, die von Common Crawl gesammelt wurden, enthielten etwa 68 Milliarden Dokumente in Englisch. Nach der Verarbeitung konnte das Team etwa 2,22 Billionen Tokens an sicheren Informationen gewinnen. Daraus wurden 1 Billion Tokens ausgewählt, die als hochwertig für den Datensatz angesehen wurden. Sie haben auch 100 Milliarden Tokens als Open-Source-Daten der Öffentlichkeit zur Verfügung gestellt.
Herausforderungen bei der Verwendung von Common Crawl-Daten
Common Crawl bietet eine riesige Menge an Daten, beinhaltet aber auch viele Inhalte von minderer Qualität. Dazu gehören fehlerhafte Links, Werbung und doppelte Texte. Solche Daten können Sprachmodelle verwirren und zu ungenauen Ausgaben führen. Zudem können einige Inhalte schädlich sein oder die Privatsphäre der Nutzer verletzen, wie persönlich identifizierbare Informationen (PII).
Um diesen Problemen entgegenzuwirken, hat das Team hinter WanJuan-CC ein umfassendes Datenverarbeitungssystem entwickelt, das Inhalte von niedriger Qualität und unsichere Inhalte herausfiltert. So wird sichergestellt, dass der resultierende Datensatz sowohl zuverlässig als auch geeignet für das Modelltraining ist.
Filterstrategien
Es wurden mehrere Strategien angewendet, um sicherzustellen, dass nur die besten Daten in WanJuan-CC gelangen:
- Heuristische Filterung: Spezielle Regeln wurden erstellt, um offensichtliche Fehler in den Daten zu erfassen und zu entfernen, wie z.B. verworrene Texte oder leere Zeilen.
- Toxizitäts- und Pornografie-Klassifikatoren: Spezialisierte Modelle, die darauf trainiert sind, schädliche Inhalte zu identifizieren, wurden verwendet, um toxische Bemerkungen oder explizites Material zu eliminieren.
- PII-Maskierung: Reguläre Ausdrücke wurden eingesetzt, um persönliche Informationen wie Namen, E-Mail-Adressen und Telefonnummern zu maskieren und so die Privatsphäre zu schützen.
Qualitätsbewertung von WanJuan-CC
Um die Qualität der in WanJuan-CC enthaltenen Daten zu überprüfen, wurden verschiedene Bewertungsmetriken festgelegt. Diese Metriken untersuchten verschiedene Aspekte des Datensatzes, wie sauber und nützlich die Daten sind und wie gut sie die Privatsphäre der Nutzer bewahren. Das Team verwendete sowohl automatisierte Methoden als auch menschliche Bewertungen zur Qualitätseinschätzung.
Leistungsevaluation
Um zu testen, wie effektiv WanJuan-CC ist, trainierten Forscher verschiedene Versionen von Sprachmodellen mit diesem Datensatz und verglichen deren Leistung mit denen, die mit anderen Datenquellen trainiert wurden. Die Bewertungen zeigten, dass Modelle, die mit WanJuan-CC trainiert wurden, in verschiedenen Aufgaben besser abschnitten, einschliesslich des Verständnisses von Kontext und der Generierung kohärenter Sätze.
Vergleich mit anderen Datensätzen
WanJuan-CC wurde mit anderen Datensätzen verglichen, die ebenfalls Common Crawl-Daten verwenden. Diese Analyse zeigte, dass, obwohl viele Datensätze existieren, nur wenige die strengen Filter- und Qualitätskontrollen bieten, die WanJuan-CC implementiert hat. Zum Beispiel verwenden viele andere Datensätze keine fortschrittlichen Techniken, um schädliche Inhalte herauszufiltern.
Zukünftige Richtungen
Die Arbeit an der Erstellung von WanJuan-CC legt eine Grundlage für weitere Verbesserungen bei Trainingsdatensätzen für Sprachmodelle. Es gibt noch Raum für Verbesserungen bei den Prozessen, die für das Filtern und die Qualitätsprüfung verwendet werden. Zukünftige Forschungen könnten auch neue Anwendungen für den Datensatz in verschiedenen Bereichen der natürlichen Sprachverarbeitung erforschen, wie z.B. Textzusammenfassung und Fragenbeantwortung.
Fazit
WanJuan-CC stellt eine wertvolle Ressource für Forscher und Entwickler dar, die sich für Sprachmodelle interessieren. Indem es einen sicheren, gut strukturierten und hochwertigen Datensatz bereitstellt, trägt es erheblich zur laufenden Entwicklung im Bereich der natürlichen Sprachverarbeitung bei. Da immer mehr Anwendungen entstehen, wird hochwertiges Trainingsmaterial noch wichtiger. Die Zukunft der Sprachmodelle sieht vielversprechend aus, mit Datensätzen wie WanJuan-CC, die den Weg weisen.
Titel: WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset
Zusammenfassung: This paper presents WanJuan-CC, a safe and high-quality open-sourced English webtext dataset derived from Common Crawl data. The study addresses the challenges of constructing large-scale pre-training datasets for language models, which require vast amounts of high-quality data. A comprehensive process was designed to handle Common Crawl data, including extraction, heuristic rule filtering, fuzzy deduplication, content safety filtering, and data quality filtering. From approximately 68 billion original English documents, we obtained 2.22T Tokens of safe data and selected 1.0T Tokens of high-quality data as part of WanJuan-CC. We have open-sourced 100B Tokens from this dataset. The paper also provides statistical information related to data quality, enabling users to select appropriate data according to their needs. To evaluate the quality and utility of the dataset, we trained 1B-parameter and 3B-parameter models using WanJuan-CC and another dataset, RefinedWeb. Results show that WanJuan-CC performs better on validation datasets and downstream tasks.
Autoren: Jiantao Qiu, Haijun Lv, Zhenjiang Jin, Rui Wang, Wenchang Ning, Jia Yu, ChaoBin Zhang, Zhenxiang Li, Pei Chu, Yuan Qu, Jin Shi, Lindong Lu, Runyu Peng, Zhiyuan Zeng, Huanze Tang, Zhikai Lei, Jiawei Hong, Keyu Chen, Zhaoye Fei, Ruiliang Xu, Wei Li, Zhongying Tu, Lin Dahua, Yu Qiao, Hang Yan, Conghui He
Letzte Aktualisierung: 2024-03-17 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2402.19282
Quell-PDF: https://arxiv.org/pdf/2402.19282
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.