Wir stellen vor: Zyda – Ein neuer Datensatz für Sprachmodelle
Zyda, ein Datensatz mit 1,3 Billionen Tokens, verbessert das Training von Sprachmodellen.
― 6 min Lesedauer
Inhaltsverzeichnis
In den letzten Jahren sind grosse Sprachmodelle (LLMs) viel grösser und komplexer geworden. Mit diesem Wachstum ist auch die Menge an Daten und Rechenleistung, die zum Trainieren dieser Modelle nötig ist, stark gestiegen. Moderne LLMs brauchen oft Training mit mindestens einer Billion Token, die Texte sind, aus denen die Modelle lernen. Aber während sich diese Modelle weiterentwickeln, hat die Verfügbarkeit von Open-Source-Datensätzen für das Training nicht Schritt gehalten, was es Forschern und Entwicklern schwer macht, auf die benötigten Daten zuzugreifen.
Um diese Lücke zu schliessen, wurde ein neuer Datensatz namens Zyda erstellt. Zyda ist ein offener Datensatz, der 1,3 Billionen Token enthält. Er wurde durch das Zusammenführen mehrerer bekannter Open-Source-Datensätze zu einer einzigen hochwertigen Sammlung erstellt. In diesem Papier wird diskutiert, wie Zyda erstellt wurde, welche Schritte unternommen wurden, um die Qualität sicherzustellen, und wie er im Vergleich zu anderen Datensätzen abschneidet.
Erstellung des Datensatzes
Zyda wurde gebildet, indem mehrere etablierte offene Datensätze, die für ihre Qualität anerkannt sind, zusammengetragen wurden. Diese Auswahl umfasste beliebte Quellen im Bereich der Sprachmodellierung. Es wurde erheblicher Aufwand betrieben, um die Daten zu Filtern und qualitativ minderwertige oder doppelte Dokumente zu entfernen. Dieser Prozess umfasste eine gründliche Reinigung, um sicherzustellen, dass der endgültige Datensatz nützlich für das effektive Training von Modellen ist.
Die Hauptdatensätze, die zur Erstellung von Zyda verwendet wurden, sind:
- The Pile
- SlimPajama
- RefinedWeb
- C4
- PeS2o
- arxivs2orcparsed
- StarCoder
Diese Datensätze wurden kombiniert und zusätzliche Filterprozesse angewendet, um die Qualität weiter zu verbessern. Das Hauptziel war es, einen einheitlichen Datensatz zu schaffen, der als starke Grundlage für das Training von Sprachmodellen dienen kann.
Bedeutung der Datensatzqualität
Während Forscher weiterhin LLMs entwickeln, wird die Bedeutung der Qualität der Trainingsdaten immer klarer. Qualitativ hochwertige Datensätze führen zu besseren Modellergebnissen. Frühe Modelle wurden oft mit ungefilterten Webdaten trainiert, die viele Störgeräusche und irrelevante Informationen enthielten. Im Gegensatz dazu konzentrieren sich moderne Techniken darauf, sauberere Datensätze durch sorgfältige Filterung zu erzeugen.
Diese Qualitätskontrolle bedeutet, dass Datensätze nicht mehr nur nach Volumen bewertet werden – mehr Token sind gut, aber qualitativ hochwertige Token sind viel besser. Jahrelange Forschung zeigt, dass das Filtern von Datensätzen zur Entfernung von minderwertigen Inhalten zu besseren Modellergebnissen führt.
Filtermethoden
Der Zyda-Datensatz durchlief mehrere Filterstufen, um seine Qualität sicherzustellen. Die folgenden Methoden wurden verwendet, um die Daten zu reinigen:
Längenfilterung: Dokumente, die kürzer als eine festgelegte Länge waren, wurden entfernt, da sie oft wenig nützlichen Inhalt enthielten.
Heuristische Filter: Diese Filter zielten auf Probleme wie Kauderwelsch, bedeutungslose Zeichenfolgen und andere minderwertige Elemente ab. Beispiele für solche Filter sind solche, die auf dem Verhältnis bestimmter Zeichen oder Wörter basieren.
Inhaltsspezifische Filter: Bestimmte Filter wurden entworfen, um anstössige Inhalte wie Pornografie oder Spam zu identifizieren. Eine spezifische Wortliste wurde verwendet, um diese Arten von Inhalten effektiv herauszufiltern.
Codefilterung: Einige Datensätze enthielten Programmiercode, der die Sprachmodellierung stören konnte. Daher stellte der Filterprozess sicher, dass Dokumente, die sich hauptsächlich auf Text konzentrierten, gegenüber solchen, die von Code dominiert wurden, priorisiert wurden.
Duplikatsentfernung: Duplikate wurden identifiziert und entfernt, sowohl innerhalb einzelner Datensätze als auch über die gesamte Sammlung hinweg. Fortgeschrittene Methoden wurden verwendet, um ähnliche Dokumente zu identifizieren, um sicherzustellen, dass keine Duplikate übrig blieben.
Jeder Filterungsschritt wurde sorgfältig auf seine Wirksamkeit getestet. Das Team hatte das Ziel, die Anzahl der fälschlicherweise entfernten guten Dokumente (falsche Positivmeldungen) auf ein Minimum zu halten, während sichergestellt wurde, dass die Gesamtqualität von Zyda hoch war.
Ergebnisse der Filterung
Nach Anwendung dieser Filtermethoden wurde die Qualität von Zyda im Vergleich zu anderen Datensätzen bewertet. Modelle, die mit Zyda trainiert wurden, schnitten bei verschiedenen Sprachaufgaben besser ab als diejenigen, die mit anderen prominenten Datensätzen wie Dolma und The Pile trainiert wurden. Durch die Sicherstellung eines hochwertigen Inputs ermöglichte Zyda bessere Ergebnisse in Sprachmodellierungsaufgaben.
Bemerkenswert ist, dass die Leistung von Zyda weiter verbessert wurde, als bestimmte Teilmengen der Datensätze, wie StarCoder, aus dem Training entfernt wurden. Diese Beobachtung unterstrich, wie weniger relevante Inhalte für Sprachaufgaben die Leistung beeinträchtigen können, wenn sie enthalten sind.
Vergleich mit anderen Datensätzen
Als Zyda mit anderen Datensätzen verglichen wurde, wurde deutlich, dass er erheblichen Vorteile bot. Die angewandten Datenverarbeitungsmethoden schufen einen Datensatz, der nicht nur grösser, sondern auch von höherer Qualität war als viele seiner Komponenten. Zum Beispiel hatte RefinedWeb, das für seine Qualität bekannt ist, nur etwa 600 Milliarden Token, was viel kleiner ist als die 1,3 Billionen Token von Zyda.
Die Forschung zeigte starke Leistungsgewinne in verschiedenen Bewertungen, insbesondere bei logischen Aufgaben. Durch die Bereitstellung eines grösseren, besser kuratierten Datensatzes konnten LLMs, die auf Zyda trainiert wurden, bessere Ergebnisse erzielen als ihre Kollegen, die auf kleineren Datensätzen trainiert wurden.
Zukünftige Schritte zur Verbesserung des Datensatzes
Während Zyda einen bedeutenden Fortschritt bei Open-Source-Datensätzen darstellt, gibt es immer noch Raum für Verbesserungen. Weitere Methoden könnten eingesetzt werden, um seine Qualität zu steigern, darunter:
Semantische Filterung: Dies könnte die Verwendung trainierter Modelle beinhalten, um die Inhaltsqualität zu bewerten und weniger relevante oder qualitativ niedrigere Daten effektiver herauszufiltern.
Clustertechniken: Durch das Gruppieren ähnlicher Dokumente könnten Ausreisser identifiziert und entfernt werden, um den Datensatz weiter zu verfeinern.
Augmentation: Das Hinzufügen von synthetischen oder umformulierten Daten könnte helfen, die Vielfalt und Qualität des Trainingsmaterials zu verbessern.
Diese Methoden würden zusätzliche Rechenressourcen erfordern, könnten aber zu einem besseren Trainingssatz führen, der die Modellleistung verbessert.
Fazit
Die Erstellung von Zyda stellt einen bedeutenden Fortschritt im Bereich der Open-Source-Datensätze für Sprachmodelle dar. Durch die Zusammenführung mehrerer Qualitätsdatensätze und die Anwendung umfassender Filter- und Duplikationsverfahren bietet Zyda eine hochwertige Ressource für Forscher und Entwickler.
Da sich LLMs weiterentwickeln, wird die Nachfrage nach hochwertigen Trainingsdatensätzen nur zunehmen. Durch den Fokus auf Qualität statt Quantität bietet Zyda ein wertvolles Werkzeug, das zukünftige Fortschritte in der Sprachmodellierung unterstützen kann.
Mit zusätzlichen Anstrengungen zur weiteren Verbesserung seiner Qualität legt Zyda eine starke Grundlage für fähigere und effizientere Sprachmodelle in der Open-Source-Community. Es stellt einen wichtigen Schritt dar, um die Entwicklung robuster, hochmoderner Modelle zu fördern, die das Beste aus dem bieten, was Open-Source-Daten zu bieten haben.
Titel: Zyda: A 1.3T Dataset for Open Language Modeling
Zusammenfassung: The size of large language models (LLMs) has scaled dramatically in recent years and their computational and data requirements have surged correspondingly. State-of-the-art language models, even at relatively smaller sizes, typically require training on at least a trillion tokens. This rapid advancement has eclipsed the growth of open-source datasets available for large-scale LLM pretraining. In this paper, we introduce Zyda (Zyphra Dataset), a dataset under a permissive license comprising 1.3 trillion tokens, assembled by integrating several major respected open-source datasets into a single, high-quality corpus. We apply rigorous filtering and deduplication processes, both within and across datasets, to maintain and enhance the quality derived from the original datasets. Our evaluations show that Zyda not only competes favorably with other open datasets like Dolma, FineWeb, and RefinedWeb, but also substantially improves the performance of comparable models from the Pythia suite. Our rigorous data processing methods significantly enhance Zyda's effectiveness, outperforming even the best of its constituent datasets when used independently.
Autoren: Yury Tokpanov, Beren Millidge, Paolo Glorioso, Jonathan Pilault, Adam Ibrahim, James Whittington, Quentin Anthony
Letzte Aktualisierung: 2024-09-03 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2406.01981
Quell-PDF: https://arxiv.org/pdf/2406.01981
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.