CulturaX: Eine neue Ära in mehrsprachigen Datensätzen
CulturaX bietet ein mehrsprachiges Datenset mit 6,3 Billionen Tokens für bessere Sprachtechnologie an.
― 6 min Lesedauer
Inhaltsverzeichnis
Grosse Sprachmodelle (LLMs) haben verändert, wie wir Sprachtechnologie nutzen und verstehen. Diese Modelle können aus einer riesigen Menge an Textdaten lernen, wodurch sie menschenähnlichen Text generieren und verschiedene Aufgaben erledigen können. Allerdings hängt die Entwicklung dieser Modelle stark von der Qualität und der Grösse der verwendeten Trainingsdatensätze ab. Leider teilen viele der leistungsstärksten Modelle nicht vollständig die Datensätze, auf denen sie trainiert wurden. Diese mangelnde Offenheit schafft Herausforderungen beim Studium von Problemen wie Vorurteilen und Ungenauigkeiten in diesen Modellen.
Um diese Herausforderungen anzugehen, stellen wir CulturaX vor, einen riesigen und mehrsprachigen Datensatz, der für das Training von LLMs konzipiert wurde. Dieser Datensatz enthält 6,3 Billionen Tokens in 167 verschiedenen Sprachen. Er wurde sorgfältig bereinigt und organisiert, um die bestmöglichen Daten für das Training bereitzustellen. Durch die öffentliche Bereitstellung von CulturaX wollen wir die Forschung und Entwicklung in der mehrsprachigen Sprachtechnologie unterstützen.
Die Bedeutung von Qualitätsdatensätzen
Die Leistung eines LLM hängt stark von den Daten ab, auf denen es trainiert wurde. Hochwertige Datensätze helfen den Modellen, besser zu lernen und Probleme wie die Generierung falscher Informationen oder die Darstellung von Vorurteilen zu reduzieren. Traditionell wurden viele LLMs mit englischen Texten trainiert, was ihre Effektivität für nicht-englische Sprachen einschränkt. In einer Welt mit über 7.000 Sprachen kann dieser Fokus auf Englisch den Fortschritt in anderen Sprachen behindern.
Viele verfügbare Datensätze, wie Wikipedia und verschiedene Sammlungen von Webtexten, sind oft nicht richtig organisiert und enthalten möglicherweise unordentliche Inhalte. Dieses Problem ist besonders akut bei mehrsprachigen Datensätzen, die oft schlecht gesammelt werden und die Vielfalt der Sprachen nicht repräsentieren. Es besteht eine grosse Nachfrage nach hochwertigen Datensätzen, die für das Training von LLMs in verschiedenen Sprachen zugänglich und verwendbar sind.
Erstellung von CulturaX
Um CulturaX zu erstellen, haben wir zwei wichtige Datensätze kombiniert: mC4 und OSCAR. Diese Datensätze sind für ihre mehrsprachigen Fähigkeiten bekannt, müssen jedoch noch erheblich gereinigt und organisiert werden. Unser Ziel war es, diese Quellen zusammenzuführen und zu verbessern, um einen hochwertigen Datensatz für das Training von LLMs zu schaffen.
Der Prozess umfasste verschiedene Phasen, die sich auf die Bereinigung, Organisation und Duplikation des Datenmaterials konzentrierten. Jeder Schritt zielte darauf ab, unerwünschte Inhalte zu entfernen, Fehler zu korrigieren und sicherzustellen, dass der Datensatz nur hochwertige Texte enthält. Dieser akribische Prozess ermöglicht es uns, eine robuste Ressource für Forscher und Entwickler bereitzustellen.
Datenbereinigungsprozess
Die Bereinigung der Daten war ein entscheidender Schritt bei der Erstellung von CulturaX. Wir wollten hochwertige Inhalte entfernen, die das Training verwirren oder behindern könnten. Der Bereinigungsprozess umfasste mehrere Schritte:
Spracherkennung
Die korrekte Identifizierung der Sprache von Textdokumenten ist entscheidend für die Erstellung eines mehrsprachigen Datensatzes. Wir verwendeten fortschrittliche Tools, um sicherzustellen, dass jedes Dokument korrekt mit seiner jeweiligen Sprache gekennzeichnet ist. Alle Dokumente, die keine hohe Sicherheit in der Spracherkennung aufwiesen, wurden entfernt.
URL-basiertes Filtern
Um den Datensatz vor schädlichen Inhalten zu schützen, führten wir einen Filterprozess ein, der Materialien von bekannten toxischen Quellen entfernte. Durch die Verwendung einer aktualisierten Liste von schädlichen URLs sorgten wir dafür, dass unser Datensatz Seiten von Websites ausschliesst, die Gewalt, Hassrede oder Erwachseneninhalt fördern. Dieser Schritt trägt dazu bei, eine sicherere und vertrauenswürdigere Ressource zu schaffen.
Metrikbasierte Bereinigung
Wir haben verschiedene Metriken festgelegt, um die Qualität jedes Dokuments zu messen. Diese Metriken umfassten Dinge wie Wortanzahlen, Verhältnisse von Sonderzeichen und allgemeine Lesbarkeitsbewertungen. Durch die Analyse dieser Metriken konnten wir Dokumente herausfiltern, die unseren Qualitätsstandards nicht entsprachen.
Dokumentenverfeinerung
Nach der Bereinigung des Datensatzes als Ganzes haben wir einzelne Dokumente weiter verfeinert, um deren Qualität zu verbessern. Dazu gehörte das Entfernen unnötiger Teile von Dokumenten, wie irrelevante HTML-Tags oder Skripte. Das Ziel war es, sicherzustellen, dass der verbleibende Inhalt sauber und kohärent ist.
Daten-Deduplizierung
Trotz gründlicher Bereinigung können im Datensatz immer noch wiederholte Informationen vorhanden sein. Duplikate können aus verschiedenen Quellen entstehen, wie wiederveröffentlichtem Inhalt oder ähnlichen Artikeln. Diese Duplikate zu entfernen, ist wichtig, um sicherzustellen, dass das Modell keine Informationen auswendig lernt, was die allgemeine Leistung beeinträchtigen kann.
MinHash-Deduplizierung
Wir haben eine Technik namens MinHash angewendet, um ähnliche Dokumente zu identifizieren und zu entfernen. Diese Technik ermöglicht es uns, Duplikate effizient basierend auf dem Inhalt des Textes und nicht nur anhand exakter Übereinstimmungen zu finden. Diese Methode half uns, einen hochwertigen Datensatz aufrechtzuerhalten.
URL-basierte Deduplizierung
Zusätzlich zu MinHash haben wir Dokumente entfernt, die die gleichen URLs teilten, um sicherzustellen, dass wir keine mehrfachen Versionen desselben Artikels einbeziehen. Dieser Schritt hilft, mögliche Verwirrungen während des Trainingsprozesses zu vermeiden.
Überblick über den endgültigen Datensatz
Nach all den Bereinigungs- und Deduplizierungsschritten umfasst CulturaX beeindruckende 6,3 Billionen Tokens in 167 Sprachen. Das ist ein bedeutender Erfolg im Bereich mehrsprachiger Trainingsdatensätze. Unsere Datenbereinigungspipeline hat sich als effektiv erwiesen, indem die Anzahl der Dokumente erheblich reduziert wurde, wobei fast die Hälfte der ursprünglichen Dokumente aufgrund von Qualitätsproblemen herausgefiltert wurde.
Der Bedarf an mehrsprachigen Datensätzen
Da die Welt immer stärker miteinander verknüpft wird, wächst der Bedarf an mehrsprachiger Technologie. Viele Geräte und Anwendungen können davon profitieren, auch Sprachen jenseits von Englisch zu unterstützen. Um dieses Ziel zu erreichen, sind jedoch Datensätze erforderlich, die verschiedene Kulturen und Sprachen genau repräsentieren.
Der Fokus auf Englisch in LLM-Trainingsdatensätzen hat eine Lücke hinterlassen, was die Fähigkeit dieser Modelle betrifft, in vielen anderen Sprachen gut abzuschneiden. Durch die Bereitstellung eines grossen Datensatzes wie CulturaX können wir dazu beitragen, gleiche Wettbewerbsbedingungen für Sprachtechnologie zu schaffen, sodass Forscher und Entwickler innovative Lösungen entwickeln können, die den vielfältigen sprachlichen Bedürfnissen gerecht werden.
Fazit
CulturaX ist eine bahnbrechende Ressource, die darauf abzielt, die Entwicklung mehrsprachiger Sprachmodelle zu fördern. Durch die Bereitstellung eines hochwertigen Datensatzes mit 6,3 Billionen Tokens in 167 Sprachen hoffen wir, Forschung, Innovation und Fortschritte im Bereich der natürlichen Sprachverarbeitung zu fördern. Die öffentliche Verfügbarkeit von CulturaX stellt einen bedeutenden Schritt in Richtung Transparenz im LLM-Training dar und zeigt das Engagement für die Demokratisierung des Zugangs zu Sprachtechnologie. Durch solche Bemühungen hoffen wir, die Lücke zwischen den Sprachen zu überbrücken und eine inklusivere digitale Landschaft zu schaffen.
Titel: CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages
Zusammenfassung: The driving factors behind the development of large language models (LLMs) with impressive learning capabilities are their colossal model sizes and extensive training datasets. Along with the progress in natural language processing, LLMs have been frequently made accessible to the public to foster deeper investigation and applications. However, when it comes to training datasets for these LLMs, especially the recent state-of-the-art models, they are often not fully disclosed. Creating training data for high-performing LLMs involves extensive cleaning and deduplication to ensure the necessary level of quality. The lack of transparency for training data has thus hampered research on attributing and addressing hallucination and bias issues in LLMs, hindering replication efforts and further advancements in the community. These challenges become even more pronounced in multilingual learning scenarios, where the available multilingual text datasets are often inadequately collected and cleaned. Consequently, there is a lack of open-source and readily usable dataset to effectively train LLMs in multiple languages. To overcome this issue, we present CulturaX, a substantial multilingual dataset with 6.3 trillion tokens in 167 languages, tailored for LLM development. Our dataset undergoes meticulous cleaning and deduplication through a rigorous pipeline of multiple stages to accomplish the best quality for model training, including language identification, URL-based filtering, metric-based cleaning, document refinement, and data deduplication. CulturaX is fully released to the public in HuggingFace to facilitate research and advancements in multilingual LLMs: https://huggingface.co/datasets/uonlp/CulturaX.
Autoren: Thuat Nguyen, Chien Van Nguyen, Viet Dac Lai, Hieu Man, Nghia Trung Ngo, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen
Letzte Aktualisierung: 2023-09-17 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2309.09400
Quell-PDF: https://arxiv.org/pdf/2309.09400
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.overleaf.com/project/645e78b3e96421780223a299
- https://huggingface.co/datasets/uonlp/CulturaX
- https://openai.com/blog/chatgpt
- https://www.cerebras.net/blog/slimpajama-a-627b-token-cleaned-and-deduplicated-version-of-redpajama
- https://blog.allenai.org/dolma-3-trillion-tokens-open-llm-corpus-9a0ff4b8da64
- https://oscar-project.org
- https://huggingface.co/datasets/mc4
- https://github.com/google/cld3
- https://modelpredict.com/language-identification-survey
- https://huggingface.co/uonlp/kenlm
- https://github.com/ChenghaoMou/text-dedup/tree/main
- https://commoncrawl.org