Richtlinien für verantwortungsvolle KI-Modellentwicklung
Lerne die besten Praktiken für die verantwortungsvolle und effektive Entwicklung von KI-Modellen.
― 5 min Lesedauer
Inhaltsverzeichnis
Stiftungsmodelle sind grosse KI-Modelle, die menschlichen Text verstehen und generieren, Bilder erkennen oder Sprache verarbeiten können. Je mehr diese Modelle genutzt werden, desto wichtiger ist es, sie verantwortungsbewusst zu entwickeln. Das heisst, dass sie sorgfältig gebaut werden, um negative Konsequenzen zu vermeiden.
Dieser Leitfaden hat das Ziel, Werkzeuge und Ressourcen für verantwortungsvolle Entwicklungspraktiken vorzustellen, die Bereiche wie Datenerhebung, Training, Evaluierung und Veröffentlichung abdecken.
Bedeutung von verantwortungsvoller Entwicklung
Verantwortungsvolle Entwicklung ist aus mehreren Gründen wichtig. Erstens hilft es, Schäden zu vermeiden, die durch den Missbrauch von KI-Modellen entstehen könnten. Dazu gehören Dinge wie Verletzungen der Privatsphäre oder die Generierung schädlicher Inhalte. Zweitens ermöglicht es der KI-Community, aus vergangenen Fehlern zu lernen und informierte Entscheidungen zu treffen, um sie nicht zu wiederholen. Schliesslich kann ein verantwortungsvoller Ansatz die Qualität und Zuverlässigkeit von KI-Modellen verbessern, was sie besser für die Nutzer macht.
Werkzeuge und Ressourcen
Die Landschaft der Werkzeuge und Ressourcen für die Entwicklung von Stiftungsmodellen ist riesig und wächst ständig. Dieser Leitfaden fasst über 250 Werkzeuge aus verschiedenen Bereichen zusammen, darunter Text, Vision und Sprache. Diese Ressourcen helfen Entwicklern, informierte Entscheidungen während des Entwicklungsprozesses zu treffen.
Datenerhebung
Daten sind das Rückgrat jedes KI-Modells. Die Qualität und Relevanz der verwendeten Daten kann bestimmen, wie gut das Modell funktioniert. Sorgfältige Datenerhebung ist entscheidend:
- Datasets verstehen: Seid euch bewusst, was ein Dataset enthält, einschliesslich Sprachvielfalt, Themen und potenzieller Vorurteile.
- Informationen überprüfen: Wenn öffentliche Datasets verwendet werden, überprüft Details wie Lizenzen und Eigenschaften gegen die ursprünglichen Quellen.
- Repräsentation bedenken: Stellt sicher, dass eure Datasets ein breites Spektrum an Perspektiven abdecken, insbesondere für mehrsprachige und multimodale Anwendungen.
Datenvorbereitung
Sobald die Daten erhoben sind, ist es wichtig, sie für das Training vorzubereiten. Das umfasst das Reinigen und Filtern, um sicherzustellen, dass die Daten nutzbar und effektiv für das Training eines Modells sind.
Daten reinigen
Daten zu reinigen kann die Modellleistung erheblich verbessern. Dazu gehört das Entfernen von Duplikaten und unerwünschten oder irrelevanten Informationen, die das Modell während des Trainings in die Irre führen können.
- Qualitätsfilterung: Konzentriert euch auf hochwertige Datasets, die gut dokumentiert sind und die beabsichtigte Nutzung genau widerspiegeln.
- Spracherkennung: Nutzt Tools, um Datasets nach Sprache zu filtern, damit das Modell den beabsichtigten Text korrekt versteht.
Datenanalyse
Zu verstehen, was in euren Daten steht, bevor ihr mit dem Training beginnt, ist entscheidend. Verwendet Analysetools, um Einblicke in die Inhalte zu gewinnen:
- Statistische Analyse: Schaut euch die Verteilungen von Sprachen, Formaten und Inhaltstypen im Dataset an.
- Manuelle Inspektion: Überprüft gelegentlich Muster, um sicherzustellen, dass sie euren Qualitätsstandards entsprechen und potenzielle Probleme ansprechen.
Modelltraining
Ein Modell zu trainieren ist einer der ressourcenintensivsten Teile des Entwicklungsprozesses. Es erfordert sorgfältige Planung, um Effizienz und Effektivität sicherzustellen.
Vortraining und Feinabstimmung
Das Training erfolgt normalerweise in zwei Hauptphasen: Vortraining und Feinabstimmung.
- Vortraining: In dieser Phase lernt das Modell aus einem grossen Korpus von Daten, um grundlegende Fähigkeiten zu entwickeln.
- Feinabstimmung: Dabei wird das Modell weiter auf einem kleineren, spezifischeren Dataset trainiert, um seine Leistung bei bestimmten Aufgaben zu verbessern.
Effizienzpraktiken
Ressourcen während des Trainings zu sparen ist entscheidend. Entwickler sollten:
- Optimierte Codebasen nutzen: Bestehende, gut dokumentierte Codebasen verwenden, um den Trainingsprozess zu optimieren. Das kann Zeit sparen und Fehler reduzieren.
- Ressourcenzuweisung planen: Entscheidet, wie Ressourcen wie Rechenleistung und Zeit effektiv basierend auf der Grösse der Daten und des Modells zugewiesen werden sollen.
Modellevaluierung
Ein Modell zu bewerten ist entscheidend, um sicherzustellen, dass es die Leistungsstandards erfüllt und wie erwartet funktioniert.
Evaluierungskriterien
Bei der Bewertung eines Modells solltet ihr mehrere Evaluierungskriterien berücksichtigen, darunter:
- Sicherheit und Robustheit: Stellt sicher, dass das Modell keine schädlichen oder voreingenommenen Ausgaben produziert.
- Leistungskennzahlen: Verwendet etablierte Benchmarks, die reale Anwendungsfälle widerspiegeln, um die Effektivität des Modells zu beurteilen.
Transparenz in der Evaluierung
Es ist wichtig, transparent über die Bewertungsmethoden und -ergebnisse zu sein. Das fördert das Vertrauen in die Fähigkeiten des Modells und fördert die Verantwortung in der Entwicklung.
Modellveröffentlichung und Monitoring
Sobald die Modelle entwickelt sind, müssen sie verantwortungsbewusst veröffentlicht werden. Dazu gehören gründliche Dokumentation, Überwachung der Nutzung und das Ansprechen von Problemen, die auftreten.
Dokumentation
Eine ordentliche Dokumentation ist entscheidend für Nutzer und Entwickler. Sie sollte Folgendes abdecken:
- Beabsichtigte Anwendungsfälle: Deutlich angeben, wie das Modell verwendet werden soll und welche potenziellen Risiken bestehen.
- Lizenzinformationen: Details zur Lizenzierung des Modells bereitstellen, um die Nutzer über ihre Rechte und Pflichten zu informieren.
Monitoring
Die Überwachung von Modellen nach der Veröffentlichung hilft sicherzustellen, dass sie korrekt und sicher verwendet werden.
- Nutzungsverfolgung: Implementiert Systeme zur Verfolgung, wie das Modell verwendet wird und ob negative Vorfälle auftreten.
- Nutzerfeedback: Ermutigt die Nutzer zur Rückmeldung, um Probleme zu identifizieren, die für Entwickler möglicherweise nicht sichtbar sind.
Fazit
Verantwortungsvolle Entwicklung von Stiftungsmodellen ist entscheidend, um sicherzustellen, dass KI-Technologie der Gesellschaft zugute kommt und potenzielle Risiken minimiert werden. Durch die Nutzung von Werkzeugen und die Einhaltung bewährter Praktiken in der Datenerhebung, -vorbereitung, -training, -evaluierung und -überwachung können Entwickler zu einer sichereren und effektiveren KI-Landschaft beitragen.
Dieser Leitfaden bietet eine solide Grundlage für alle, die an der Erstellung und Bereitstellung von KI-Modellen beteiligt sind, und stellt sicher, dass sie mit Sorgfalt und Rücksicht auf ihre breiteren Auswirkungen entwickelt werden.
Titel: The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources
Zusammenfassung: Foundation model development attracts a rapidly expanding body of contributors, scientists, and applications. To help shape responsible development practices, we introduce the Foundation Model Development Cheatsheet: a growing collection of 250+ tools and resources spanning text, vision, and speech modalities. We draw on a large body of prior work to survey resources (e.g. software, documentation, frameworks, guides, and practical tools) that support informed data selection, processing, and understanding, precise and limitation-aware artifact documentation, efficient model training, advance awareness of the environmental impact from training, careful model evaluation of capabilities, risks, and claims, as well as responsible model release, licensing and deployment practices. We hope this curated collection of resources helps guide more responsible development. The process of curating this list, enabled us to review the AI development ecosystem, revealing what tools are critically missing, misused, or over-used in existing practices. We find that (i) tools for data sourcing, model evaluation, and monitoring are critically under-serving ethical and real-world needs, (ii) evaluations for model safety, capabilities, and environmental impact all lack reproducibility and transparency, (iii) text and particularly English-centric analyses continue to dominate over multilingual and multi-modal analyses, and (iv) evaluation of systems, rather than just models, is needed so that capabilities and impact are assessed in context.
Autoren: Shayne Longpre, Stella Biderman, Alon Albalak, Hailey Schoelkopf, Daniel McDuff, Sayash Kapoor, Kevin Klyman, Kyle Lo, Gabriel Ilharco, Nay San, Maribeth Rauh, Aviya Skowron, Bertie Vidgen, Laura Weidinger, Arvind Narayanan, Victor Sanh, David Adelani, Percy Liang, Rishi Bommasani, Peter Henderson, Sasha Luccioni, Yacine Jernite, Luca Soldaini
Letzte Aktualisierung: 2024-09-03 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2406.16746
Quell-PDF: https://arxiv.org/pdf/2406.16746
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://arxiv.org/abs/2308.04430
- https://huggingface.co/datasets/kernelmachine/open-license-corpus
- https://github.com/kernelmachine/silo-lm#download-data
- https://arxiv.org/abs/2207.00220
- https://huggingface.co/datasets/pile-of-law/pile-of-law
- https://arxiv.org/abs/2211.15533
- https://huggingface.co/datasets/bigcode/the-stack
- https://github.com/bigcode-project/bigcode-dataset
- https://www.bigcode-project.org/docs/about/the-stack/#datasets-and-data-governance-tools-released-by-bigcode
- https://arxiv.org/abs/2310.10631
- https://huggingface.co/datasets/EleutherAI/proof-pile-2
- https://github.com/EleutherAI/math-lm
- https://blog.eleuther.ai/llemma/
- https://arxiv.org/abs/2310.06786
- https://huggingface.co/datasets/open-web-math/open-web-math
- https://github.com/keirp/OpenWebMath
- https://arxiv.org/abs/1911.02782
- https://huggingface.co/datasets/allenai/peS2o
- https://arxiv.org/abs/2210.08402
- https://github.com/rom1504/img2dataset/blob/main/dataset_examples/laion5B.md
- https://laion.ai/blog/laion-5b/
- https://arxiv.org/abs/2304.14108
- https://huggingface.co/datasets/mlfoundations/datacomp_1b
- https://github.com/mlfoundations/datacomp
- https://www.datacomp.ai/
- https://arxiv.org/abs/2304.06939
- https://github.com/allenai/mmc4
- https://arxiv.org/abs/2306.16527
- https://huggingface.co/datasets/HuggingFaceM4/OBELICS
- https://github.com/huggingface/OBELICS
- https://huggingface.co/blog/idefics
- https://commonvoice.mozilla.org/en/datasets
- https://arxiv.org/abs/2106.06909
- https://github.com/SpeechColab/GigaSpeech
- https://arxiv.org/abs/2106.10161
- https://github.com/sberdevices/golos
- https://www.openslr.org/114/
- https://arxiv.org/abs/2208.11761
- https://ai4bharat.iitm.ac.in/indicsuperb/
- https://arxiv.org/abs/1912.07875
- https://github.com/facebookresearch/libri-light
- https://www.danielpovey.com/files/2015_icassp_librispeech.pdf
- https://www.openslr.org/12/
- https://arxiv.org/abs/2111.09344
- https://huggingface.co/datasets/MLCommons/peoples_speech
- https://www.openslr.org/128/
- https://arxiv.org/abs/2208.12666
- https://ai4bharat.iitm.ac.in/shrutilipi/
- https://arxiv.org/abs/2101.00390
- https://github.com/facebookresearch/voxpopuli
- https://arxiv.org/abs/2110.03370
- https://github.com/wenet-e2e/WenetSpeech
- https://www.openslr.org/121/
- https://commoncrawl.org
- https://arxiv.org/abs/1910.10683
- https://huggingface.co/datasets/allenai/c4
- https://github.com/google-research/text-to-text-transfer-transformer#c4
- https://github.com/allenai/dolma/blob/main/docs/assets/dolma-datasheet-v0.1.pdf
- https://arxiv.org/abs/2402.00159
- https://huggingface.co/datasets/allenai/dolma
- https://github.com/allenai/dolma
- https://arxiv.org/abs/2101.00027
- https://huggingface.co/datasets/EleutherAI/pile
- https://pile.eleuther.ai/
- https://arxiv.org/abs/2306.01116
- https://huggingface.co/datasets/tiiuae/falcon-refinedweb
- https://huggingface.co/datasets/mc4
- https://oscar-project.org/
- https://arxiv.org/abs/2303.03915
- https://huggingface.co/bigscience-data
- https://github.com/bigscience-workshop/bigscience/tree/master/data
- https://bigscience.huggingface.co/
- https://arxiv.org/abs/2309.04662
- https://huggingface.co/datasets/allenai/MADLAD-400
- https://github.com/google-research/google-research/tree/master/madlad_400
- https://huggingface.co/datasets/togethercomputer/RedPajama-Data-V2
- https://github.com/togethercomputer/RedPajama-Data
- https://www.together.ai/blog/redpajama-data-v2
- https://arxiv.org/abs/2309.09400
- https://huggingface.co/datasets/uonlp/CulturaX
- https://aclanthology.org/2022.wnut-1.23/
- https://aclanthology.org/L12-1246/
- https://opus.nlpl.eu/
- https://aclanthology.org/2023.emnlp-main.11/
- https://huggingface.co/datasets/castorini/wura
- https://arxiv.org/abs/2310.11986
- https://safetyprompts.com/
- https://dpmd.ai/46CPd58
- https://arxiv.org/abs/2110.08193
- https://github.com/nyu-mll/BBQ
- https://arxiv.org/abs/2205.12522
- https://google.github.io/crossmodal-3600/
- https://arxiv.org/abs/2205.09209
- https://github.com/facebookresearch/ResponsibleNLP/tree/main/holistic_bias
- https://ai.meta.com/research/publications/im-sorry-to-hear-that-finding-new-biases-in-language-models-with-a-holistic-descriptor-dataset/
- https://arxiv.org/abs/2009.11462
- https://github.com/allenai/real-toxicity-prompts
- https://toxicdegeneration.allenai.org/
- https://arxiv.org/abs/2303.11408
- https://huggingface.co/spaces/society-ethics/StableBias
- https://arxiv.org/abs/2206.04624
- https://github.com/nayeon7lee/FactualityPrompt
- https://huggingface.co/vectara/hallucination_evaluation_model
- https://github.com/vectara/hallucination-leaderboard
- https://arxiv.org/abs/2308.10168
- https://paperswithcode.com/paper/head-to-tail-how-knowledgeable-are-large
- https://arxiv.org/abs/2312.04724
- https://github.com/facebookresearch/PurpleLlama/tree/main/CybersecurityBenchmarks
- https://ai.meta.com/research/publications/purple-llama-cyberseceval-a-benchmark-for-evaluating-the-cybersecurity-risks-of-large-language-models/
- https://arxiv.org/abs/2312.06674
- https://github.com/facebookresearch/PurpleLlama/tree/main/Llama-Guard
- https://ai.meta.com/research/publications/llama-guard-llm-based-input-output-safeguard-for-human-ai-conversations/
- https://arxiv.org/pdf/2208.03274.pdf
- https://github.com/openai/moderation-api-release
- https://arxiv.org/abs/2202.03286
- https://arxiv.org/abs/2311.08370
- https://github.com/bertiev/SimpleSafetyTests
- https://dl.acm.org/doi/abs/10.1145/3531146.3534637
- https://arxiv.org/abs/2303.09001
- https://haveibeentrained.com/
- https://github.com/EleutherAI/gpt-neox
- https://huggingface.co/stanford-crfm
- https://github.com/stanford-crfm/levanter
- https://crfm.stanford.edu/2023/06/16/levanter-1_0-release.html
- https://github.com/NVIDIA/Megatron-LM
- https://github.com/microsoft/Megatron-DeepSpeed
- https://github.com/mlfoundations/open_lm
- https://arxiv.org/abs/2306.14824
- https://huggingface.co/spaces/ydshieh/Kosmos-2
- https://github.com/microsoft/unilm/tree/master/kosmos-2
- https://github.com/mlfoundations/open_clip
- https://github.com/huggingface/pytorch-image-models
- https://github.com/lhotse-speech/lhotse
- https://github.com/Stability-AI/stable-audio-tools
- https://www.cerebras.net/model-lab/
- https://arxiv.org/abs/2305.14314
- https://github.com/artidoro/qlora
- https://arxiv.org/abs/2305.16264
- https://huggingface.co/datablations
- https://github.com/huggingface/datablations
- https://arxiv.org/abs/2203.15556
- https://arxiv.org/abs/1810.03993
- https://huggingface.co/spaces/huggingface/Model_Cards_Writing_Tool
- https://huggingface.co/blog/model-cards
- https://arxiv.org/abs/2303.15772
- https://hai.stanford.edu/news/ecosystem-graphs-social-footprint-foundation-models
- https://arxiv.org/abs/2310.12941
- https://github.com/stanford-crfm/fmti
- https://crfm.stanford.edu/fmti/
- https://github.com/OpenAccess-AI-Collective/axolotl
- https://arxiv.org/abs/2304.15010
- https://github.com/OpenGVLab/LLaMA-Adapter
- https://arxiv.org/abs/2301.12597
- https://github.com/salesforce/LAVIS/tree/main/projects/blip2
- https://arxiv.org/abs/2310.03744
- https://huggingface.co/spaces/badayvedat/LLaVA
- https://github.com/haotian-liu/LLaVA
- https://llava-vl.github.io/
- https://arxiv.org/abs/2304.10592
- https://huggingface.co/spaces/Vision-CAIR/minigpt4
- https://github.com/Vision-CAIR/MiniGPT-4
- https://minigpt-4.github.io/
- https://arxiv.org/abs/2308.01390
- https://huggingface.co/openflamingo
- https://github.com/mlfoundations/open_flamingo
- https://laion.ai/blog/open-flamingo-v2/
- https://arxiv.org/abs/2311.04219
- https://huggingface.co/spaces/Otter-AI/OtterHD-Demo
- https://github.com/Luodian/Otter
- https://github.com/huggingface/peft
- https://github.com/huggingface/trl
- https://aclanthology.org/2023.emnlp-main.530/
- https://github.com/CarperAI/trlx
- https://trlx.readthedocs.io/en/latest/
- https://avidml.org/
- https://ai.meta.com/llama/responsible-use-guide/
- https://bigscience.huggingface.co/blog/bigscience-ethical-charter
- https://sites.google.com/view/model-monitoring-tutorial
- https://huggingface.co/docs/hub/models-gated
- https://dl.acm.org/doi/10.1145/3531146.3533143
- https://bigscience.huggingface.co/blog/legal-playbook-for-natural-language-processing-researchers
- https://the-turing-way.netlify.app/reproducible-research/licensing
- https://github.com/github/choosealicense.com/tree/gh-pages
- https://choosealicense.com/
- https://chooser-beta.creativecommons.org/
- https://allenai.org/impact-license
- https://oecd.ai/en/wonk/rails-licenses-trustworthy-ai
- https://arxiv.org/abs/2402.05979
- https://www.apache.org/licenses/LICENSE-2.0
- https://allenai.org/licenses/impact-lr
- https://allenai.org/licenses/impact-mr
- https://github.com/EleutherAI/cookbook
- https://sumanthrh.com/post/distributed-and-efficient-finetuning/
- https://github.com/stas00/ml-engineering
- https://github.com/karpathy/nanoGPT
- https://kipp.ly/transformer-inference-arithmetic/
- https://blog.eleuther.ai/transformer-math/
- https://arxiv.org/abs/2206.04615
- https://github.com/google/BIG-bench
- https://arxiv.org/abs/2210.09261
- https://github.com/suzgunmirac/BIG-Bench-Hard
- https://arxiv.org/abs/2211.09110
- https://github.com/stanford-crfm/helm
- https://crfm.stanford.edu/helm/latest/
- https://crfm.stanford.edu/2023/12/19/helm-lite.html
- https://crfm.stanford.edu/helm/lite/latest/#/
- https://github.com/EleutherAI/lm-evaluation-harness
- https://arxiv.org/pdf/2009.03300.pdf
- https://huggingface.co/datasets/cais/mmlu
- https://github.com/hendrycks/test
- https://github.com/hendrycks/test#test-leaderboard
- https://arxiv.org/abs/2210.07316
- https://huggingface.co/spaces/mteb/leaderboard
- https://github.com/embeddings-benchmark/mteb
- https://arxiv.org/abs/2309.07445
- https://huggingface.co/datasets/Davlan/sib200
- https://github.com/dadelani/sib-200
- https://github.com/bigcode-project/bigcode-evaluation-harness/tree/main
- https://arxiv.org/abs/2308.07124
- https://huggingface.co/datasets/bigcode/humanevalpack
- https://github.com/bigcode-project/octopack
- https://arxiv.org/abs/2310.06770
- https://github.com/princeton-nlp/SWE-bench
- https://www.swebench.com/
- https://www.activefence.com/LLMSafety
- https://arxiv.org/pdf/2209.07858.pdf
- https://arxiv.org/pdf/2307.04657.pdf
- https://arxiv.org/pdf/2304.10436.pdf
- https://github.com/thu-coai/Safety-Prompts
- https://arxiv.org/pdf/2306.11698.pdf
- https://aclanthology.org/2020.alw-1.16.pdf
- https://docs.cohere.com/docs/content-moderation-with-classify
- https://arxiv.org/pdf/2302.09270.pdf
- https://arxiv.org/pdf/2307.09288.pdf
- https://arxiv.org/pdf/2112.04359.pdf
- https://arxiv.org/pdf/2310.11986.pdf
- https://arxiv.org/pdf/2308.05374.pdf
- https://arxiv.org/pdf/2106.10328.pdf
- https://arxiv.org/pdf/2210.05791.pdf
- https://arxiv.org/pdf/2310.07879.pdf
- https://arxiv.org/pdf/2307.05527.pdf
- https://arxiv.org/pdf/2306.12001.pdf
- https://img1.wsimg.com/blobby/go/3d82daa4-97fe-4096-9c6b-376b92c619de/downloads/MaliciousUseofAI.pdf?ver=1553030594217
- https://cdn.governance.ai/Open-Sourcing_Highly_Capable_Foundation_Models_2023_GovAI.pdf
- https://securityandtechnology.org/wp-content/uploads/2023/12/How-Does-Access-Impact-Risk-Assessing-AI-Foundation-Model-Risk-Along-A-Gradient-of-Access-Dec-2023.pdf
- https://cdn.openai.com/openai-preparedness-framework-beta.pdf
- https://www-files.anthropic.com/production/files/responsible-scaling-policy-1.0.pdf
- https://arxiv.org/pdf/2305.15324.pdf
- https://arxiv.org/pdf/2307.03718.pdf
- https://arxiv.org/pdf/2206.09511.pdf
- https://arxiv.org/pdf/2306.06924.pdf
- https://github.com/LAION-AI/CLIP_benchmark
- https://github.com/mlfoundations/datacomp#evaluation
- https://arxiv.org/abs/2311.04287
- https://crfm.stanford.edu/heim/v1.1.0/
- https://arxiv.org/abs/2303.18110
- https://groups.inf.ed.ac.uk/edacc/
- https://arxiv.org/abs/2307.06281
- https://github.com/open-compass/MMBench
- https://opencompass.org.cn/mmbench
- https://arxiv.org/abs/2306.13394
- https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/
- https://arxiv.org/abs/2311.16502
- https://huggingface.co/datasets/MMMU/MMMU
- https://github.com/MMMU-Benchmark/MMMU
- https://mmmu-benchmark.github.io/
- https://github.com/mlfoundations/open_flamingo/tree/main/open_flamingo/eval
- https://huggingface.co/open-llm-leaderboard
- https://arxiv.org/abs/2306.05685
- https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
- https://github.com/lm-sys/FastChat/blob/main/docs/dataset_release.md
- https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
- https://github.com/huggingface/open_asr_leaderboard
- https://github.com/mlfoundations/dataset2metadata
- https://github.com/mlfoundations/datacomp/tree/main#baselines
- https://arxiv.org/abs/2302.03169
- https://github.com/p-lambda/dsir
- https://pypi.org/project/data-selection/
- https://github.com/lilacai/lilac
- https://www.lilacml.com/
- https://github.com/bigscience-workshop/data-preparation/tree/main/preprocessing/training/01a_catalogue_cleaning_and_filtering
- https://github.com/EleutherAI/the-pile/tree/master/processing_scripts
- https://github.com/Mimino666/langdetect
- https://pypi.org/project/langdetect/
- https://arxiv.org/abs/1802.06893
- https://huggingface.co/facebook/fasttext-language-identification
- https://github.com/google-research/url-nlp/tree/main/fun-langid
- https://arxiv.org/abs/2305.13820
- https://github.com/laurieburchell/open-lid-dataset
- https://arxiv.org/abs/2310.16248
- https://github.com/cisnlp/GlotLID
- https://github.com/unitaryai/detoxify
- https://arxiv.org/abs/2106.04624
- https://huggingface.co/speechbrain/lang-id-voxlingua107-ecapa
- https://arxiv.org/abs/2305.10429
- https://github.com/sangmichaelxie/doremi
- https://arxiv.org/abs/2312.02406
- https://github.com/alon-albalak/online-data-mixing
- https://arxiv.org/abs/2001.08361
- https://dl.acm.org/doi/fullHtml/10.1145/3531146.3533231
- https://sites.research.google/datacardsplaybook/
- https://arxiv.org/abs/1805.03677
- https://datanutrition.org/
- https://arxiv.org/abs/2310.16787
- https://github.com/Data-Provenance-Initiative/Data-Provenance-Collection
- https://www.dataprovenance.org/
- https://aclanthology.org/Q18-1041/
- https://arxiv.org/abs/1803.09010
- https://cris.unibo.it/handle/11585/947893
- https://arxiv.org/pdf/2303.18190.pdf
- https://c4-search.apps.allenai.org/
- https://github.com/castorini/pyserini
- https://arxiv.org/abs/2306.01481
- https://huggingface.co/spaces/spacerini/gaia
- https://github.com/rom1504/clip-retrieval
- https://rom1504.github.io/clip-retrieval/
- https://huggingface.co/spaces/bigscience-data/roots-search
- https://arxiv.org/abs/2310.20707
- https://github.com/allenai/wimbd
- https://wimbd.apps.allenai.org/
- https://arxiv.org/abs/2305.16636
- https://github.com/viswavi/datafinder
- https://huggingface.co/DataProvenanceInitiative
- https://huggingface.co/spaces/huggingface/data-measurements-tool
- https://github.com/PAIR-code/knowyourdata
- https://knowyourdata-tfds.withgoogle.com/
- https://docs.nvidia.com/deeplearning/nemo/user-guide/docs/en/stable/tools/speech_data_explorer.html
- https://jmlr.org/papers/v24/23-0069.html
- https://www.microsoft.com/en-us/sustainability/emissions-impact-dashboard
- https://arxiv.org/abs/2007.03051
- https://github.com/lfwa/carbontracker
- https://github.com/mlco2/codecarbon
- https://mlco2.github.io/codecarbon/
- https://arxiv.org/abs/2002.05651
- https://github.com/Breakend/experiment-impact-tracker
- https://cloud.google.com/carbon-footprint?hl=en
- https://arxiv.org/abs/2304.03271
- https://github.com/Ren-Research/Making-AI-Less-Thirsty
- https://arxiv.org/abs/1910.09700
- https://mlco2.github.io/impact/
- https://arxiv.org/abs/2105.05241
- https://arxiv.org/abs/2201.07311
- https://arxiv.org/abs/2311.03449
- https://arxiv.org/abs/2110.01963
- https://arxiv.org/abs/2306.13141
- https://arxiv.org/abs/2103.12028
- https://huggingface.co/blog/yjernite/data-transparency
- https://dl.acm.org/doi/abs/10.5555/3455716.3455877
- https://github.com/jmschrei/apricot
- https://arxiv.org/abs/2107.06499
- https://github.com/google-research/deduplicate-text-datasets
- https://github.com/EleutherAI/pile_dedupe
- https://www.anaconda.com/
- https://colab.research.google.com/
- https://docker-curriculum.com/
- https://jupyter.org/
- https://semver.org/
- https://github.com/google/BIG-bench/blob/main/bigbench/benchmark_tasks/training_on_test_set/README.md#training-on-the-test-set
- https://github.com/CarperAI/decontamination/tree/main
- https://arxiv.org/abs/2303.03919
- https://dataportraits.org/
- https://arxiv.org/abs/2310.16789
- https://github.com/swj0419/detect-pretrain-code
- https://swj0419.github.io/detect-pretrain.github.io/
- https://arxiv.org/abs/2306.00133
- https://arxiv.org/abs/2310.17623
- https://github.com/ARBML
- https://arbml.github.io/masader/
- https://arxiv.org/abs/2402.06619
- https://huggingface.co/datasets/CohereForAI/aya_dataset
- https://cohere.com/research/aya
- https://licensing.sheffield.ac.uk/product/chime5
- https://ieeexplore.ieee.org/abstract/document/5206848
- https://www.image-net.org/
- https://huggingface.co/NusaCrowd
- https://github.com/IndoNLP/nusa-crowd
- https://indonlp.github.io/nusa-catalogue/
- https://lanfrica.com/
- https://huggingface.co/masakhane
- https://github.com/masakhane-io
- https://www.masakhane.io/
- https://arxiv.org/abs/1405.0312
- https://cocodataset.org/#home
- https://www.openslr.org/resources.php
- https://github.com/SEACrowd
- https://seacrowd.github.io/seacrowd-catalogue/
- https://arxiv.org/abs/1706.08612
- https://www.robots.ox.ac.uk/~vgg/data/voxceleb/
- https://arxiv.org/abs/2011.12998
- https://bark.phon.ioc.ee/voxlingua107/
- https://zenodo.org/communities/africanlp
- https://fmcheatsheet.org
- https://www.latex4technics.com/?note=MOB
- https://huggingface.co/datasets/kakaobrain/coyo-700m
- https://github.com/webdataset/webdataset
- https://huggingface.co/docs/datasets/index
- https://huggingface.co/ai4bharat
- https://zenodo.org/communities/africanlp/
- https://openslr.org
- https://www.microsoft.com/en-us/photodna
- https://api.spawning.ai/spawning-api
- https://www.cnil.fr/en/ai-how-sheets
- https://aws.amazon.com/aws-cost-management/aws-customer-carbon-footprint-tool/
- https://mlcommons.org/working-groups/ai-safety/ai-safety/
- https://the-decoder.com/dall-e-3s-system-prompt-reveals-openais-rules-for-generative-image-ai/
- https://docs.cohere.com/reference/toxicity-detection
- https://docs.anthropic.com/claude/docs/content-moderation
- https://platform.openai.com/docs/guides/moderation/quickstart
- https://cloud.google.com/vertex-ai/generative-ai/docs/configure-safety-attributes-palm
- https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-attributes
- https://crfm.stanford.edu/2024/05/01/helm-mmlu.html
- https://www.docker.com/
- https://knowyourdata.withgoogle.com/
- https://github.com/google/cld3
- https://github.com/huggingface/datatrove
- https://github.com/bigcode-project/bigcode-analysis/tree/main/data_analysis/decontamination
- https://github.com/google/BIG-bench/blob/main/bigbench/benchmark_tasks/training_on_test_set/README.md
- https://github.com/google/BIG-bench/.../training
- https://www.overleaf.com/project/64a9c3f27da8985d89930dfe
- https://emoji.aranja.com/