Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Apprendimento automatico

Benchmark dinamici per valutare i modelli di linguaggio

Un nuovo sistema per valutare i modelli linguistici usando flussi di dati reali.

― 6 leggere min


Valutare i LLM con datiValutare i LLM con datidel mondo realevalutazione più chiara.contributi della community per unaI nuovi benchmark sfruttano i
Indice

I Benchmark sono fondamentali per la crescita del machine learning. Per migliorare la sicurezza nella gestione di questi modelli, è importante sapere quanto bene si comportano in compiti reali. Tuttavia, creare benchmark adatti per i modelli di linguaggio di grandi dimensioni (LLM) può essere difficile. Raccogliere dati dal mondo reale non è facile, e i dati esistenti possono mescolarsi con quelli di test, portando a problemi di Valutazione. Inoltre, generare nuovi dati regolarmente richiede tempo e può produrre risultati incoerenti.

Per affrontare queste sfide, presentiamo un sistema che valuta gli LLM utilizzando flussi di dati reali creati da contributori umani motivati. Questo sistema si basa sulle Note della comunità su X (ex Twitter) e sulle modifiche fatte su Wikipedia, riducendo le preoccupazioni riguardo alla contaminazione dei dati e al sovraddestramento dei benchmark.

Come funzionano le note della comunità

Su X, gli utenti possono suggerire note per fornire più contesto a post che potrebbero essere fuorvianti. Se molti utenti concordano sul fatto che una nota aggiunge valore, essa verrà mostrata insieme al post originale. Wikipedia segue un approccio simile, dove gli utenti possono modificare articoli in base all'accordo della comunità. Determinare se una nota o una modifica è utile richiede di cercare informazioni accurate su internet.

Abbiamo testato i principali LLM con accesso a ricerche web semplici e abbiamo scoperto che il nostro sistema produce classifiche coerenti nel tempo. Per supportare valutazioni continue, abbiamo creato una classifica pubblica e aggiorniamo regolarmente i dati di valutazione.

La necessità di benchmark dinamici

I benchmark tradizionali spesso si concentrano su eventi passati e possono portare a contaminazione dove i dati di addestramento filtrano nei dati di valutazione. Questi approcci possono risultare in LLM troppo sintonizzati su compiti specifici e incapaci di generalizzare a situazioni future. Pertanto, è cruciale che i benchmark siano dinamici e aggiornati regolarmente.

I dati raccolti dalle note della comunità di X e dalle modifiche su Wikipedia consentono aggiornamenti continui, garantendo che le valutazioni rimangano rilevanti. Questo ci permette di valutare le prestazioni degli LLM in compiti che riflettono il lavoro reale degli esseri umani.

Confronto tra azioni umane su X e Wikipedia

Le note della comunità di X permettono agli utenti di aggiungere contesto ai post, mentre Wikipedia consente agli utenti di modificare articoli collaborativamente. Entrambi i sistemi si basano su un gruppo diversificato di contributori per valutare l'accuratezza delle informazioni. A gennaio 2024, decine di migliaia di note sono state proposte su X e milioni di modifiche sono state effettuate su Wikipedia. Questa ricchezza di informazioni consente valutazioni tempestive degli LLM.

Raccolta di dati per la valutazione

Per creare un dataset affidabile, raccogliamo note da X che sono in inglese e non sono state eliminate o sospese. Selezioniamo quindi casualmente note classificate come utili o non utili ogni mese per formare un dataset bilanciato. Per le modifiche su Wikipedia, utilizziamo la loro API per ottenere le modifiche recenti e determinare quali modifiche sono accettate o annullate in base al consenso della comunità.

Metodi di valutazione

Abbiamo definito il nostro compito come un problema di classificazione binaria, dove l'LLM predice se una nota o una modifica è utile o corretta. Per valutare le prestazioni di diversi modelli, abbiamo implementato due approcci: un classificatore zero-shot e un agente di ricerca web.

Classificazione Zero-Shot

In questo metodo, l'LLM riceve un prompt contenente le informazioni necessarie per classificare una nota o una modifica senza addestramento precedente. Ad esempio, quando si classifica una nota di X, il prompt include dettagli sul post e sulla nota stessa.

Agente di Ricerca Web

In questo approccio, l'LLM genera prima una query di ricerca e recupera informazioni dal web per aiutare nella classificazione. Il modello utilizza quindi questi dati aggiuntivi per prendere la sua decisione.

Risultati della valutazione

La nostra valutazione ha coinvolto più modelli, inclusi modelli LLM popolari come GPT-4 e GPT-3.5. Abbiamo trovato che le prestazioni variavano a seconda dell'approccio utilizzato e dei dettagli del prompt fornito all'LLM. In molti casi, l'agente di ricerca web ha performato meglio, ma ci sono state eccezioni in cui il classificatore zero-shot ha eccelso.

Inoltre, abbiamo scoperto che i modelli mostravano migliori prestazioni con note che ricevevano più voti, indicando che il consenso gioca un ruolo significativo nel processo di classificazione.

Precisione e Richiamo

Per un sistema essere utile, deve bilanciare precisione (l'accuratezza delle classificazioni utili) con richiamo (la capacità di identificare tutte le note utili). Abbiamo esaminato quanto bene diversi modelli raggiungessero alta precisione mantenendo tassi di richiamo accettabili.

Nel nostro scenario di distribuzione simulato, abbiamo trovato che alcuni modelli raggiungevano fino al 90% di precisione per le modifiche su Wikipedia, rendendoli candidati adatti per l'uso operativo.

Importanza dei benchmark dinamici

I risultati evidenziano la necessità di benchmark dinamici che forniscano dati attuali e pertinenti per le valutazioni degli LLM. Utilizzando fonti continuamente aggiornate come le note della comunità di X e le modifiche su Wikipedia, possiamo misurare meglio quanto bene gli LLM si comportano in compiti reali.

Direzioni future

Abbiamo in programma di espandere il nostro benchmark per includere più tipi di media, incluse immagini e video. Questo approccio multi-modale è fondamentale poiché un numero significativo di note su X coinvolge post con contenuti multimediali.

Inoltre, vogliamo incorporare giustificazioni per le decisioni di classificazione, espandere le nostre valutazioni per proporre note o modifiche e esplorare le caratteristiche degli utenti che contribuiscono a queste piattaforme.

Mantenimento del benchmark

Nuovi dataset verranno curati ogni trimestre, assicurando che il benchmark rimanga rilevante. Aggiorneremo la nostra classifica in base alle previsioni fatte dagli LLM valutati e pubblicheremo le etichette per i dati del trimestre precedente.

Conclusione

L'approccio presentato qui stabilisce un nuovo benchmark per valutare gli LLM utilizzando flussi di dati reali. Utilizzando le note della comunità di X e le modifiche su Wikipedia, creiamo un sistema di valutazione vivente che si adatta nel tempo. I nostri risultati mostrano che questo sistema può classificare efficacemente gli LLM pur rimanendo sensibile alla natura in evoluzione delle informazioni.

Man mano che continuiamo a perfezionare ed espandere questo benchmark, miriamo a migliorare il modo in cui gli LLM interagiscono con i dati reali, migliorando infine la loro applicazione e affidabilità in vari settori.

Fonte originale

Titolo: HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and Wikipedia edits

Estratto: Benchmarks have been essential for driving progress in machine learning. A better understanding of LLM capabilities on real world tasks is vital for safe development. Designing adequate LLM benchmarks is challenging: Data from real-world tasks is hard to collect, public availability of static evaluation data results in test data contamination and benchmark overfitting, and periodically generating new evaluation data is tedious and may result in temporally inconsistent results. We introduce HelloFresh, based on continuous streams of real-world data generated by intrinsically motivated human labelers. It covers recent events from X (formerly Twitter) community notes and edits of Wikipedia pages, mitigating the risk of test data contamination and benchmark overfitting. Any X user can propose an X note to add additional context to a misleading post (formerly tweet); if the community classifies it as helpful, it is shown with the post. Similarly, Wikipedia relies on community-based consensus, allowing users to edit articles or revert edits made by other users. Verifying whether an X note is helpful or whether a Wikipedia edit should be accepted are hard tasks that require grounding by querying the web. We backtest state-of-the-art LLMs supplemented with simple web search access and find that HelloFresh yields a temporally consistent ranking. To enable continuous evaluation on HelloFresh, we host a public leaderboard and periodically updated evaluation data at https://tinyurl.com/hello-fresh-LLM.

Autori: Tim Franzmeyer, Aleksandar Shtedritski, Samuel Albanie, Philip Torr, João F. Henriques, Jakob N. Foerster

Ultimo aggiornamento: 2024-06-05 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2406.03428

Fonte PDF: https://arxiv.org/pdf/2406.03428

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili