Pratiche discutibili nella valutazione del machine learning
Una panoramica delle pratiche che minano la fiducia nelle valutazioni dei modelli di machine learning.
― 7 leggere min
Indice
- L'importanza di valutazioni affidabili
- Tipi di pratiche di ricerca discutibili
- Pratiche di ricerca non riproducibili
- Comprendere i gradi di libertà dei ricercatori
- Pratiche chiave che minano la fiducia
- 1. Contaminazione
- 2. Cherrypicking
- 3. Misreporting
- Problemi tecnici nella valutazione dei modelli
- Il ruolo della trasparenza
- Problemi di dataset
- Esecuzioni stocastiche
- Mancanza di accesso ai modelli
- Reporting ed etica della ricerca
- Punteggi eccessivi e sovraaffermazione
- Etica nel reporting
- L'impatto degli incentivi aziendali
- Competizione con gli altri
- Conclusione
- Raccomandazioni per il miglioramento
- Fonte originale
- Link di riferimento
Valutare i modelli di machine learning (ML) moderni può essere complicato. I ricercatori e le aziende spesso si sentono sotto pressione per mostrare risultati eccellenti su alcune misure. Questa pressione può portare a pratiche che, pur non essendo di per sé ingannevoli, sono comunque discutibili. Questo articolo spiega varie pratiche di ricerca discutibili (QRPs) che possono influenzare l'affidabilità dei risultati riportati.
Ci concentreremo in particolare sulla valutazione dei grandi modelli linguistici (LLMs) e sui problemi che sorgono nei benchmark pubblici. Vedremo anche il concetto di pratiche di ricerca non riproducibili (IRPs), che rendono difficile per altri ripetere o verificare ricerche passate.
L'importanza di valutazioni affidabili
Per valutare davvero cosa possono fare modelli come i grandi modelli linguistici, è fondamentale avere valutazioni affidabili. Questo significa confrontare diversi modelli e metodi su compiti significativi. Purtroppo, c'è un'incentivazione significativa per i ricercatori e le aziende a impegnarsi in QRPs per gonfiare i loro risultati riportati.
Tale gonfiamento può aiutare i ricercatori a far pubblicare i loro lavori su riviste prestigiose e aiutare le aziende ad attrarre clienti o investitori. Tuttavia, queste pratiche discutibili possono rendere i punteggi dei benchmark inaffidabili per classificare i sistemi o stimare le loro vere capacità.
Tipi di pratiche di ricerca discutibili
Le pratiche di ricerca discutibili possono essere raggruppate in tre famiglie principali:
Contaminazione: Questo accade quando le informazioni dal set di test vengono erroneamente utilizzate durante l'addestramento o la valutazione. Ad esempio, modelli ad alta capacità, come i LLM, possono memorizzare dati che hanno visto durante l'addestramento, rendendo i risultati meno validi.
Cherrypicking: Questo comporta la scelta selettiva di condizioni o risultati sperimentali favorevoli. Questo può includere il test di varie configurazioni e la segnalazione solo di quelle in cui il modello funziona bene, o il degrado delle prestazioni dei modelli di base per un confronto più equo.
Misreporting: Questo consiste in affermazioni ampie basate su prove ristrette o fuorvianti. Tali pratiche possono distorcere la reale prestazione di un modello o le sue capacità.
Pratiche di ricerca non riproducibili
Le pratiche di ricerca non riproducibili (IRPs) si riferiscono a decisioni che ostacolano altri nel riprodurre o costruire su ricerche precedenti. Un esempio comune è il nascondere i dataset, dove un ricercatore non condivide i dati o i dettagli del dataset utilizzato. Questa pratica protegge il loro vantaggio competitivo ma rende difficile verificare le affermazioni.
Comprendere i gradi di libertà dei ricercatori
I ricercatori spesso hanno libertà nei loro design sperimentali e nelle analisi, nota come gradi di libertà dei ricercatori (RDOFs). Questa libertà può portare a bias involontari o intenzionali nei risultati. Nel ML, i ricercatori eseguono test per confrontare metodi, con l'obiettivo di dimostrare che il loro metodo supera significativamente gli altri.
Questa necessità di rivendicare superiorità può portare i ricercatori a sfruttare i RDOFs, come il cherrypicking dei dataset o l'aggiustamento delle condizioni di valutazione dopo aver ottenuto i risultati.
Pratiche chiave che minano la fiducia
1. Contaminazione
La contaminazione avviene quando le informazioni del set di test influenzano come viene addestrato un modello. Questo potrebbe essere semplice come riutilizzare gli iperparametri da modelli testati sullo stesso set di test o addirittura addestrare il modello direttamente sui dati di test. Tali pratiche possono invalidare i punteggi di benchmarking.
2. Cherrypicking
Il cherrypicking implica la selezione di test o configurazioni che favoriscono il modello riportato. Questo potrebbe significare scegliere baseline deboli o non ottimizzare correttamente forti concorrenti. Può portare a benchmark fuorvianti che non rappresentano la vera prestazione del modello.
3. Misreporting
Il misreporting può assumere molte forme, come sottovalutare la dimensione di un modello o fare affermazioni ampie basate su dati limitati. Questa pratica può portare a conclusioni fuorvianti sulle capacità di un modello.
Problemi tecnici nella valutazione dei modelli
I modelli vengono spesso valutati in base alle loro prestazioni su compiti di benchmark, ma i difetti in questi benchmark possono portare a valutazioni inaccurate. Molti benchmark contengono errori, e i benchmark utilizzati potrebbero non riflettere compiti reali.
I ricercatori dovrebbero controllare la duplicazione e gli errori all'interno dei dataset di addestramento e test. Se un compito di benchmark è troppo facile o si adatta troppo ai dati di addestramento, potrebbe non offrire una misura valida delle prestazioni.
Il ruolo della trasparenza
La trasparenza nella condivisione di dati, codice e dettagli di valutazione è cruciale per garantire l'integrità della ricerca ML. Quando i ricercatori non condividono abbastanza informazioni, creano barriere per altri che potrebbero voler replicare o mettere in discussione i risultati.
Problemi di dataset
Nascondere i dataset è una preoccupazione seria. Quando i ricercatori non condividono i loro dataset di addestramento, ciò può portare a risultati non riproducibili. Questa mancanza di informazioni non solo influisce sulla credibilità del lavoro originale, ma soffoca anche ulteriori ricerche in quell'area.
Esecuzioni stocastiche
Molti metodi ML includono elementi di casualità, che possono portare a incongruenze nelle prestazioni. Eseguire lo stesso modello più volte può dare risultati diversi a causa di elementi stocastici, come le impostazioni dei semi casuali. Questa variabilità deve essere riportata e tenuta in considerazione nelle valutazioni.
Mancanza di accesso ai modelli
Un modo per garantire che i risultati non siano riproducibili è non fornire accesso ai modelli addestrati. Questa tendenza è aumentata nel ML commerciale, dove i modelli sono spesso tenuti privati, rendendo impossibile per gli outsider verificare i risultati.
Reporting ed etica della ricerca
I fallimenti nel reporting possono avere un impatto significativo sulla credibilità di un articolo. Con dettagli insufficienti, i lettori possono fraintendere i risultati o non comprendere il contesto di uno studio.
Punteggi eccessivi e sovraaffermazione
La ricerca spesso si concentra su punteggi singoli, che non catturano la variabilità nelle prestazioni del modello. Riportare solo il miglior punteggio ignorando la diffusione dei risultati può esagerare le scoperte.
La sovraaffermazione si verifica quando i ricercatori fanno affermazioni grandiose sulle capacità del loro modello basate su successi limitati. Ad esempio, affermare che un modello può risolvere tutti i problemi matematici basandosi su un paio di esempi di successo è fuorviante.
Etica nel reporting
Un reporting onesto è essenziale nella ricerca. I problemi sorgono quando i ricercatori si impegnano in reporting selettivo o nascondono risultati negativi, il che può distorcere la comprensione delle capacità di un modello.
L'impatto degli incentivi aziendali
La crescita dell'IA come prodotto commerciale ha cambiato il panorama della ricerca ML. Le aziende spesso danno priorità allo sviluppo di prodotti piuttosto che attenersi rigorosamente a pratiche di ricerca etiche, portando a più QRPs.
Competizione con gli altri
C'è una forte competizione per rilasciare i migliori modelli. In questo ambiente, i ricercatori possono sentirsi sotto pressione per ottenere benchmark favorevoli, anche se ciò comporta deviare dalle regole.
Conclusione
La discussione sulle QRPs nel ML mette in evidenza la necessità di pratiche più robuste nella valutazione dei modelli e nel reporting dei risultati. Affrontando la contaminazione, il cherrypicking e il misreporting, il campo può migliorare i suoi metodi e garantire la credibilità dei risultati.
Per rafforzare l'integrità della ricerca nel machine learning, è cruciale garantire trasparenza, responsabilità e standard etici durante la valutazione dei modelli. Collaborando, i ricercatori possono creare una base più affidabile per i futuri progressi nel campo.
Raccomandazioni per il miglioramento
Per combattere QRPs e IRPs, possono essere adottate le seguenti pratiche:
Valutazione standardizzata: Creare metodi di valutazione uniformi che tutti i ricercatori devono utilizzare per garantire confronti equi.
Condivisione dei dati: Incoraggiare la condivisione aperta dei dataset per promuovere la trasparenza e la riproducibilità nella ricerca.
Accesso pubblico ai modelli: Promuovere l'accesso aperto ai modelli ML per consentire verifiche indipendenti dei risultati riportati.
Chiari standard di reporting: Stabilire linee guida rigorose su come i risultati dovrebbero essere riportati, inclusi dettagli necessari per la replicazione.
Implementando questi cambiamenti, la comunità di ricerca può promuovere un ambiente più affidabile e trasparente che avvantaggi tutti coinvolti.
Titolo: Questionable practices in machine learning
Estratto: Evaluating modern ML models is hard. The strong incentive for researchers and companies to report a state-of-the-art result on some metric often leads to questionable research practices (QRPs): bad practices which fall short of outright research fraud. We describe 44 such practices which can undermine reported results, giving examples where possible. Our list emphasises the evaluation of large language models (LLMs) on public benchmarks. We also discuss "irreproducible research practices", i.e. decisions that make it difficult or impossible for other researchers to reproduce, build on or audit previous research.
Autori: Gavin Leech, Juan J. Vazquez, Niclas Kupper, Misha Yagudin, Laurence Aitchison
Ultimo aggiornamento: 2024-10-30 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.12220
Fonte PDF: https://arxiv.org/pdf/2407.12220
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://reproducible.cs.princeton.edu/
- https://reproducible.cs.princeton.edu/citation.bib
- https://arxiv.org/abs/2309.08632
- https://arxiv.org/abs/2310.18018
- https://arxiv.org/abs/1908.07086
- https://www.reddit.com/r/ChatGPT/comments/18xirbu/created_a_custom_instruction_that_generates/
- https://x.com/AnthropicAI/status/1793741051867615494
- https://www.reddit.com/r/ChatGPT/comments/1czif9o/willing_to_bet_theyll_turn_this_off_in_just_a_few/
- https://www.lesswrong.com/posts/z5pbBBmGjzoqBxC4n/chatgpt-and-now-gpt4-is-very-easily-distracted-from-its
- https://arxiv.org/abs/2311.17035
- https://arxiv.org/abs/2303.03446
- https://x.com/teortaxesTex/status/1794481141744885785
- https://github.com/FranxYao/chain-of-thought-hub/blob/main/MMLU/readme.md
- https://openreview.net/forum?id=UdaTyy0BNB
- https://arxiv.org/html/2404.01833v1#bib.bib21
- https://openreview.net/forum?id=r42tSSCHPh
- https://help.openai.com/en/articles/6825453-chatgpt-release-notes
- https://www.technologyreview.com/2022/11/18/1063487/meta-large-language-model-ai-only-survived-three-days-gpt-3-science/
- https://galactica.org/static/paper.pdf
- https://x.com/littmath/status/1708176935921054023
- https://x.com/typedfemale/status/1783951432590188916
- https://www.surgehq.ai/blog/how-good-is-hugging-faces-bloom-a-real-world-human-evaluation-of-language-models
- https://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled
- https://x.com/gblazex/status/1746295870792847562
- https://arxiv.org/pdf/2402.13446#page=7
- https://ehudreiter.com/2022/10/13/summarisation-datasets/
- https://web.archive.org/web/20240520121753/
- https://raw.githubusercontent.com/jonnypei/acl23-preadd/main/scripts/experiments/evaluate_sentiment.py
- https://github.com/jonnypei/acl23-preadd/blob/main/scripts/analysis/analyze_sentiment_results.py
- https://www.science.org/content/article/missing-data-hinder-replication-artificial-intelligence-studies
- https://scale.com/leaderboard
- https://www.science.org/doi/epdf/10.1126/sciadv.adk3452
- https://arxiv.org/abs/2311.18807
- https://www.sciscore.com/
- https://www.codabench.org/competitions/2338/#/pages-tab
- https://www.sciencedirect.com/science/article/pii/S0004370202003703?via%3Dihub
- https://arxiv.org/pdf/2307.09288#page=56
- https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard
- https://mistral.ai/news/mixtral-of-experts/