Fragwürdige Praktiken in der Bewertung von Machine Learning
Eine Übersicht über Praktiken, die das Vertrauen in die Bewertungen von Machine-Learning-Modellen untergraben.
― 7 min Lesedauer
Inhaltsverzeichnis
- Die Bedeutung vertrauenswürdiger Bewertungen
- Arten fragwürdiger Forschungspraktiken
- Nicht reproduzierbare Forschungspraktiken
- Verständnis der Freiheiten der Forscher
- Wichtige Praktiken, die das Vertrauen untergraben
- 1. Kontamination
- 2. Cherrypicking
- 3. Falschangaben
- Technische Probleme bei der Modellbewertung
- Die Rolle der Transparenz
- Probleme mit Datensätzen
- Stochastische Läufe
- Fehlender Zugang zu Modellen
- Berichterstattung und Forschungsethik
- Punktwerte und Übertreibungen
- Ethik bei der Berichterstattung
- Der Einfluss von Geschäftsanreizen
- Konkurrenz mit anderen
- Fazit
- Empfehlungen zur Verbesserung
- Originalquelle
- Referenz Links
Die Bewertung moderner maschineller Lernmodelle (ML) kann herausfordernd sein. Forscher und Unternehmen fühlen sich oft unter Druck, auf bestimmten Massstäben Top-Ergebnisse zu zeigen. Dieser Druck kann zu Praktiken führen, die zwar nicht direkt betrügerisch sind, aber trotzdem fragwürdig. Dieser Artikel erklärt verschiedene fragwürdige Forschungspraktiken (QRPs), die die Zuverlässigkeit der gemeldeten Ergebnisse beeinträchtigen können.
Wir konzentrieren uns besonders auf die Bewertung grosser Sprachmodelle (LLMs) und die Probleme, die bei öffentlichen Benchmarks auftreten. Ausserdem betrachten wir das Konzept der nicht reproduzierbaren Forschungspraktiken (IRPs), die es anderen erschweren, frühere Forschungen zu wiederholen oder zu überprüfen.
Die Bedeutung vertrauenswürdiger Bewertungen
Um wirklich zu beurteilen, was Modelle wie grosse Sprachmodelle leisten können, ist es wichtig, vertrauenswürdige Bewertungen zu haben. Das bedeutet, verschiedene Modelle und Methoden bei sinnvollen Aufgaben zu vergleichen. Leider gibt es für Forscher und Unternehmen einen erheblichen Anreiz, sich an QRPs zu beteiligen, um ihre gemeldeten Ergebnisse zu beschönigen.
Eine solche Beschönigung kann Forschern helfen, ihre Arbeiten in angesehenen Fachzeitschriften zu veröffentlichen, und Unternehmen dabei unterstützen, Kunden oder Investoren zu gewinnen. Diese fragwürdigen Praktiken können jedoch dazu führen, dass Benchmark-Ergebnisse unzuverlässig sind, um Systeme zu bewerten oder ihre tatsächlichen Fähigkeiten abzuschätzen.
Arten fragwürdiger Forschungspraktiken
Fragwürdige Forschungspraktiken lassen sich in drei Hauptkategorien unterteilen:
Kontamination: Das passiert, wenn Informationen aus dem Testset versehentlich während des Trainings oder der Bewertung verwendet werden. Zum Beispiel können hochkapazitive Modelle wie LLMs Daten, die sie während des Trainings gesehen haben, auswendig lernen, was die Ergebnisse weniger gültig macht.
Cherrypicking: Dabei werden selektiv günstige experimentelle Bedingungen oder Ergebnisse ausgewählt. Das kann bedeuten, verschiedene Konfigurationen zu testen und nur die zu berichten, bei denen das Modell gut abschneidet, oder die Leistung von Basislinienmodellen absichtlich zu verschlechtern, um einen faireren Vergleich zu ermöglichen.
Falschangaben: Das besteht aus allgemeinen Behauptungen, die auf eng gefassten oder irreführenden Beweisen basieren. Solche Praktiken können die echte Leistung eines Modells oder dessen Fähigkeiten verzerren.
Nicht reproduzierbare Forschungspraktiken
Nicht reproduzierbare Forschungspraktiken (IRPs) beziehen sich auf Entscheidungen, die es anderen erschweren, frühere Forschungen zu reproduzieren oder darauf aufzubauen. Ein weit verbreitetes Beispiel ist das Verstecken von Datensätzen, bei dem ein Forscher die Daten oder Details des verwendeten Datensatzes nicht teilt. Diese Praxis schützt ihren Wettbewerbsvorteil, erschwert jedoch die Überprüfung von Behauptungen.
Verständnis der Freiheiten der Forscher
Forscher haben oft Spielraum in ihren Versuchsdesigns und Analysen, bekannt als die Freiheiten der Forscher (RDOFs). Diese Freiheit kann zu unbeabsichtigten oder absichtlichen Verzerrungen in den Ergebnissen führen. Im ML führen Forscher Tests durch, um Methoden zu vergleichen, mit dem Ziel, zu zeigen, dass ihre Methode deutlich besser ist als andere.
Dieses Bedürfnis, Überlegenheit zu behaupten, kann Forscher dazu bringen, RDOFs auszunutzen, wie zum Beispiel Datensätze auszuwählen oder die Bewertungsbedingungen nach dem Erhalt der Ergebnisse anzupassen.
Wichtige Praktiken, die das Vertrauen untergraben
1. Kontamination
Kontamination tritt auf, wenn Informationen aus dem Testset die Art und Weise beeinflussen, wie ein Modell trainiert wird. Das könnte so einfach sein wie die Wiederverwendung von Hyperparametern von Modellen, die auf demselben Testset getestet wurden, oder sogar das direkte Trainieren des Modells mit Testdaten. Solche Praktiken können die Benchmark-Werte ungültig machen.
2. Cherrypicking
Cherrypicking beinhaltet die Auswahl von Tests oder Konfigurationen, die das berichtete Modell begünstigen. Das könnte bedeuten, schwache Baseline-Modelle auszuwählen oder starke Konkurrenten unterzubewerten. Das kann zu irreführenden Benchmarks führen, die nicht die tatsächliche Leistung des Modells repräsentieren.
3. Falschangaben
Falschangaben können viele Formen annehmen, zum Beispiel die Unterberichterstattung der Grösse eines Modells oder das Aufstellen allgemeiner Behauptungen auf Basis begrenzter Daten. Diese Praxis kann zu irreführenden Schlussfolgerungen über die Fähigkeiten eines Modells führen.
Technische Probleme bei der Modellbewertung
Modelle werden oft basierend auf ihrer Leistung bei Benchmark-Aufgaben bewertet, aber Fehler in diesen Benchmarks können zu ungenauen Bewertungen führen. Viele Benchmarks enthalten Fehler, und die verwendeten Benchmarks spiegeln möglicherweise nicht die realen Aufgaben wider.
Forscher sollten auf Duplizierung und Fehler innerhalb der Trainings- und Testdatensätze achten. Wenn eine Benchmark-Aufgabe zu einfach oder zu nah am Trainingsdaten ist, bietet sie möglicherweise kein gültiges Mass für die Leistung.
Die Rolle der Transparenz
Transparenz beim Teilen von Daten, Code und Bewertungsdetails ist entscheidend, um die Integrität der ML-Forschung zu gewährleisten. Wenn Forscher nicht genügend Informationen teilen, entstehen Barrieren für andere, die möglicherweise Ergebnisse reproduzieren oder in Frage stellen möchten.
Probleme mit Datensätzen
Das Verstecken von Datensätzen ist eine ernsthafte Sorge. Wenn Forscher ihre Trainingsdatensätze nicht teilen, kann das zu nicht reproduzierbaren Ergebnissen führen. Dieser Informationsmangel beeinträchtigt nicht nur die Glaubwürdigkeit der ursprünglichen Arbeit, sondern behindert auch die weitere Forschung in diesem Bereich.
Stochastische Läufe
Viele ML-Methoden beinhalten Zufälligkeit, die zu Inkonsistenzen in der Leistung führen kann. Wenn dasselbe Modell mehrere Male ausgeführt wird, können aufgrund stochastischer Elemente, wie z.B. der Einstellungen des Zufallsseeds, unterschiedliche Ergebnisse erzielt werden. Diese Variabilität muss in den Bewertungen berichtet und berücksichtigt werden.
Fehlender Zugang zu Modellen
Eine Möglichkeit, um sicherzustellen, dass Ergebnisse nicht reproduzierbar sind, besteht darin, keinen Zugang zu den trainierten Modellen zu gewähren. Dieser Trend hat in der kommerziellen ML-Forschung zugenommen, wo Modelle oft privat gehalten werden, was es Aussenstehenden unmöglich macht, Ergebnisse zu überprüfen.
Berichterstattung und Forschungsethik
Fehler bei der Berichterstattung können die Glaubwürdigkeit eines Papiers erheblich beeinträchtigen. Mit unzureichenden Details können Leser Ergebnisse falsch interpretieren oder den Kontext einer Studie nicht verstehen.
Punktwerte und Übertreibungen
Forschung konzentriert sich oft auf Einzelpunktwerte, die die Variabilität in der Modellleistung nicht erfassen. Nur den besten Wert zu berichten und die Streuung der Ergebnisse zu ignorieren, kann die Ergebnisse übertreiben.
Übertreibungen treten auf, wenn Forscher grosse Behauptungen über die Fähigkeiten ihres Modells aufstellen, basierend auf begrenzten Erfolgen. Zum Beispiel, wenn man sagt, ein Modell könne alle Mathematikprobleme lösen, basierend auf ein paar erfolgreichen Beispielen, ist irreführend.
Ethik bei der Berichterstattung
Ehrliche Berichterstattung ist in der Forschung unerlässlich. Probleme treten auf, wenn Forscher selektiv berichten oder negative Ergebnisse verbergen, was das Verständnis der Fähigkeiten eines Modells verzerren kann.
Der Einfluss von Geschäftsanreizen
Der Aufstieg von KI als kommerzielles Produkt hat das Umfeld der ML-Forschung verändert. Unternehmen priorisieren oft die Entwicklung von Produkten über die strikte Einhaltung ethischer Forschungspraktiken, was zu mehr QRPs führt.
Konkurrenz mit anderen
Es gibt einen intensiven Wettbewerb, die besten Modelle auf den Markt zu bringen. In diesem Umfeld fühlen sich Forscher möglicherweise unter Druck, günstige Benchmarks zu erreichen, auch wenn das bedeutet, die Regeln zu biegen.
Fazit
Die Diskussion über QRPs im ML hebt die Notwendigkeit robusterer Praktiken bei der Bewertung von Modellen und der Berichterstattung über Ergebnisse hervor. Indem wir Kontamination, Cherrypicking und Falschangaben angehen, kann das Feld seine Methoden verbessern und die Glaubwürdigkeit der Ergebnisse sicherstellen.
Um die Integrität der maschinellen Lernforschung zu stärken, ist es entscheidend, Transparenz, Verantwortlichkeit und ethische Standards bei der Bewertung von Modellen sicherzustellen. Durch gemeinsame Anstrengungen können Forscher eine verlässlichere Grundlage für zukünftige Fortschritte in diesem Bereich schaffen.
Empfehlungen zur Verbesserung
Um QRPs und IRPs zu bekämpfen, könnten folgende Praktiken übernommen werden:
Standardisierte Bewertung: Einheitliche Bewertungsmethoden schaffen, die alle Forscher verwenden müssen, um faire Vergleiche zu gewährleisten.
Datenfreigabe: Offene Freigabe von Datensätzen fördern, um Transparenz und Reproduzierbarkeit in der Forschung zu unterstützen.
Öffentlicher Zugang zu Modellen: Offenen Zugang zu ML-Modellen fördern, um unabhängige Überprüfungen der gemeldeten Ergebnisse zu ermöglichen.
Klare Berichtsstandards: Strenge Richtlinien für die Berichterstattung von Ergebnissen festlegen, einschliesslich notwendiger Details für die Reproduzierbarkeit.
Durch die Umsetzung dieser Änderungen kann die Forschungsgemeinschaft ein vertrauenswürdigeren und transparenteren Raum schaffen, der allen Beteiligten zugutekommt.
Titel: Questionable practices in machine learning
Zusammenfassung: Evaluating modern ML models is hard. The strong incentive for researchers and companies to report a state-of-the-art result on some metric often leads to questionable research practices (QRPs): bad practices which fall short of outright research fraud. We describe 44 such practices which can undermine reported results, giving examples where possible. Our list emphasises the evaluation of large language models (LLMs) on public benchmarks. We also discuss "irreproducible research practices", i.e. decisions that make it difficult or impossible for other researchers to reproduce, build on or audit previous research.
Autoren: Gavin Leech, Juan J. Vazquez, Niclas Kupper, Misha Yagudin, Laurence Aitchison
Letzte Aktualisierung: 2024-10-30 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.12220
Quell-PDF: https://arxiv.org/pdf/2407.12220
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://reproducible.cs.princeton.edu/
- https://reproducible.cs.princeton.edu/citation.bib
- https://arxiv.org/abs/2309.08632
- https://arxiv.org/abs/2310.18018
- https://arxiv.org/abs/1908.07086
- https://www.reddit.com/r/ChatGPT/comments/18xirbu/created_a_custom_instruction_that_generates/
- https://x.com/AnthropicAI/status/1793741051867615494
- https://www.reddit.com/r/ChatGPT/comments/1czif9o/willing_to_bet_theyll_turn_this_off_in_just_a_few/
- https://www.lesswrong.com/posts/z5pbBBmGjzoqBxC4n/chatgpt-and-now-gpt4-is-very-easily-distracted-from-its
- https://arxiv.org/abs/2311.17035
- https://arxiv.org/abs/2303.03446
- https://x.com/teortaxesTex/status/1794481141744885785
- https://github.com/FranxYao/chain-of-thought-hub/blob/main/MMLU/readme.md
- https://openreview.net/forum?id=UdaTyy0BNB
- https://arxiv.org/html/2404.01833v1#bib.bib21
- https://openreview.net/forum?id=r42tSSCHPh
- https://help.openai.com/en/articles/6825453-chatgpt-release-notes
- https://www.technologyreview.com/2022/11/18/1063487/meta-large-language-model-ai-only-survived-three-days-gpt-3-science/
- https://galactica.org/static/paper.pdf
- https://x.com/littmath/status/1708176935921054023
- https://x.com/typedfemale/status/1783951432590188916
- https://www.surgehq.ai/blog/how-good-is-hugging-faces-bloom-a-real-world-human-evaluation-of-language-models
- https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled
- https://x.com/gblazex/status/1746295870792847562
- https://arxiv.org/pdf/2402.13446#page=7
- https://ehudreiter.com/2022/10/13/summarisation-datasets/
- https://web.archive.org/web/20240520121753/
- https://raw.githubusercontent.com/jonnypei/acl23-preadd/main/scripts/experiments/evaluate_sentiment.py
- https://github.com/jonnypei/acl23-preadd/blob/main/scripts/analysis/analyze_sentiment_results.py
- https://www.science.org/content/article/missing-data-hinder-replication-artificial-intelligence-studies
- https://scale.com/leaderboard
- https://www.science.org/doi/epdf/10.1126/sciadv.adk3452
- https://arxiv.org/abs/2311.18807
- https://www.sciscore.com/
- https://www.codabench.org/competitions/2338/#/pages-tab
- https://www.sciencedirect.com/science/article/pii/S0004370202003703?via%3Dihub
- https://arxiv.org/pdf/2307.09288#page=56
- https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
- https://mistral.ai/news/mixtral-of-experts/