Valutare i modelli linguistici per previsioni future
Questo studio esamina se i modelli linguistici possono eguagliare le capacità previsionali umane.
― 6 leggere min
Indice
- Importanza della Previsione
- Il Nostro Approccio
- Componenti del Sistema
- Sistema di Recupero
- Sistema di Ragionamento
- Valutazione delle Prestazioni
- Raccolta del Dataset
- Processo di Ottimizzazione del Sistema
- Affinamento
- Ricerca di Iperparametri
- Valutazione del Sistema
- Previsione Selettiva
- Combinazione delle Previsioni
- Conclusione
- Direzioni Future
- Fonte originale
- Link di riferimento
Prevedere eventi futuri è importante per prendere decisioni sia nel governo che nel business. Questo studio esamina se i modelli di linguaggio (LM) possono prevedere risultati in modo simile agli esperti umani. Abbiamo creato un sistema che aiuta i LM a trovare informazioni rilevanti, fare Previsioni e combinare diverse previsioni. Per testarlo, abbiamo raccolto un grande insieme di domande da piattaforme di previsione competitiva.
Abbiamo scoperto che le previsioni del nostro sistema erano vicine alla media delle previsioni umane e, in alcuni casi, anche migliori. Questo suggerisce che utilizzare i LM per fare previsioni può offrire stime accurate e supportare processi decisionali importanti.
Importanza della Previsione
La previsione è essenziale per vari settori oggi. I governi hanno bisogno di previsioni economiche e geopolitiche per pianificare. Le aziende dipendono da previsioni di mercato per prendere decisioni di investimento. Ad esempio, le previsioni durante la pandemia di COVID-19 hanno influenzato i lockdown globali.
Ci sono due tipi principali di previsione:
- Previsione Statistica: Questo metodo utilizza strumenti matematici per analizzare dati temporali. Funziona bene quando ci sono molti dati e pochi cambiamenti nei modelli.
- Previsione Giudiziale: Questo approccio si basa sull'intuizione e sull'expertise umana. I previsori assegnano probabilità a eventi futuri utilizzando dati storici e conoscenze sulla situazione. Questo metodo è utile anche con dati limitati.
Ci riferiremo alla previsione giudiziale semplicemente come "previsione".
Gli sforzi umani nella previsione possono essere costosi e richiedere tempo. Inoltre, queste previsioni spesso mancano di spiegazioni sui risultati previsti. Questo mette in evidenza il potenziale dell'uso dei modelli di linguaggio per automatizzare parte del processo di previsione.
I modelli di linguaggio possono analizzare e generare testo rapidamente, rendendoli strumenti convenienti e tempestivi per la previsione. Sono addestrati su un vasto insieme di dati provenienti da internet, dandogli una vasta conoscenza in vari campi. Possono anche fornire ragionamenti per le loro previsioni quando richiesto.
Il Nostro Approccio
Il nostro obiettivo è costruire un sistema di previsione che si concentri sulla previsione di risultati binari. Il nostro sistema automatizza tre parti principali della previsione tradizionale:
- Recupero: Raccogliere informazioni rilevanti dalle fonti di notizie.
- Ragionamento: Analizzare i dati e fare una previsione.
- Aggregazione: Combinare diverse previsioni in un'unica previsione finale.
Ogni parte di questo processo utilizza modelli di linguaggio o un gruppo di essi.
Per migliorare il nostro sistema e valutare le sue prestazioni, abbiamo creato un ampio dataset di domande di previsione provenienti da varie piattaforme. Il nostro set di test include solo domande binarie pubblicate dopo il 1° giugno 2023. Questa tempistica assicura che non ci sia sovrapposizione tra i nostri dati di addestramento e i dati su cui sono stati addestrati i modelli.
I dati di addestramento consistono in domande poste prima del 1° giugno 2023, che utilizziamo per affinare il nostro sistema.
Componenti del Sistema
Sistema di Recupero
Il primo passo consiste nel generare query di ricerca dalla domanda. Il LM prende la domanda e crea query di ricerca per trovare articoli utilizzando le API di notizie. Poi, classifica questi articoli in base alla rilevanza e riassume i migliori.
Sistema di Ragionamento
Il sistema prende la domanda e gli articoli riassunti per generare previsioni. I risultati vengono quindi combinati in una previsione finale utilizzando un metodo statistico chiamato media trimmata.
Valutazione delle Prestazioni
Per valutare come si comporta il nostro sistema, lo confrontiamo con la media delle previsioni umane. Utilizzando il punteggio Brier, una metrica comune per l'accuratezza delle previsioni, scopriamo che il nostro sistema si avvicina o addirittura supera le previsioni umane in alcuni casi.
Raccolta del Dataset
Le domande di previsione sono raccolte da piattaforme competitive come Metaculus, Good Judgment Open, INFER, Polymarket e Manifold. Il dataset copre una varietà di argomenti e periodi di tempo, dal 2015 al 2024.
Per garantire la qualità del dataset, filtriamo le domande che sono poco chiare o eccessivamente personali, e ci concentriamo su domande binarie. Includiamo nel nostro set di test solo le domande pubblicate dopo la data di cut-off della conoscenza dei nostri modelli per prevenire qualsiasi fuga di dati.
Dopo il processo di curatela, siamo arrivati a un dataset pulito di domande binarie, separato in set di addestramento, validazione e test.
Processo di Ottimizzazione del Sistema
Affinamento
Affiniamo il nostro modello di linguaggio in modo che generi previsioni accurate e spiegazioni. Questo comporta l'esecuzione del sistema su domande di addestramento, raccogliendo vari output e affinando il modello in base a quelli che hanno funzionato bene rispetto alle medie umane.
Ricerca di Iperparametri
Per ottimizzare il nostro sistema, conduciamo una ricerca di iperparametri per trovare le migliori impostazioni per il recupero e il ragionamento. Questo comporta la regolazione di vari parametri e la valutazione di quali configurazioni producono i migliori risultati di previsione.
Valutazione del Sistema
Abbiamo testato il nostro sistema finale contro il set di test, confermando che si comporta vicino alle previsioni umane. La nostra valutazione include diverse misure di accuratezza, come il punteggio Brier e l'accuratezza complessiva delle previsioni, per capire quanto bene sta funzionando il sistema.
Previsione Selettiva
Guardiamo anche a un approccio di previsione selettiva in cui il sistema fa previsioni solo in determinate condizioni, sfruttando i suoi punti di forza. In questo contesto, il nostro sistema è stato in grado di superare l'averaggio degli esperti umani.
Combinazione delle Previsioni
Abbiamo scoperto che combinare le previsioni del nostro sistema con quelle umane produce risultati ancora migliori. Questo dimostra che il nostro modello può servire come uno strumento prezioso insieme ai metodi di previsione tradizionali.
Conclusione
Il nostro lavoro mostra il potenziale dell'uso dei modelli di linguaggio per i compiti di previsione. Il nostro sistema automatizzato è quasi altrettanto efficace degli esperti umani e i metodi che abbiamo sviluppato possono aiutare a informare decisioni significative in vari settori. Abbiamo anche rilasciato il nostro dataset per future ricerche in questo campo.
Direzioni Future
Ci sono molte opportunità per migliorare ulteriormente il nostro sistema. Ad esempio, possiamo esplorare modi per affinare i nostri dati di addestramento, adattare il sistema a domini specifici e garantire che i modelli continuino a evolversi man mano che le sfide previsionali cambiano.
In sintesi, il nostro sistema di previsione automatizzato rappresenta un grande passo avanti nell'uso dei modelli di linguaggio per prevedere eventi futuri, aprendo la strada a approcci più scalabili ed efficienti nei processi decisionali.
Titolo: Approaching Human-Level Forecasting with Language Models
Estratto: Forecasting future events is important for policy and decision making. In this work, we study whether language models (LMs) can forecast at the level of competitive human forecasters. Towards this goal, we develop a retrieval-augmented LM system designed to automatically search for relevant information, generate forecasts, and aggregate predictions. To facilitate our study, we collect a large dataset of questions from competitive forecasting platforms. Under a test set published after the knowledge cut-offs of our LMs, we evaluate the end-to-end performance of our system against the aggregates of human forecasts. On average, the system nears the crowd aggregate of competitive forecasters, and in some settings surpasses it. Our work suggests that using LMs to forecast the future could provide accurate predictions at scale and help to inform institutional decision making.
Autori: Danny Halawi, Fred Zhang, Chen Yueh-Han, Jacob Steinhardt
Ultimo aggiornamento: 2024-02-28 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2402.18563
Fonte PDF: https://arxiv.org/pdf/2402.18563
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://www.onthisday.com/events/date/2023/
- https://www.infer-pub.com/frequently-asked-questions
- https://www.metaculus.com/api2/questions/15973/
- https://www.youtube.com/live/-1wcilQ58hI
- https://twitter.com/nextspaceflight/status/1648797064183128065
- https://twitter.com/SciGuySpace/status/1648498635355865089
- https://twitter.com/nextspaceflight/status/1648425030018293760
- https://twitter.com/SpaceX/status/1648092752893313024
- https://polymarket.com/event/will-kevin-mccarthy-resign-from-the-house-by-nov-30?tid=1708585271779
- https://www.metaculus.com/questions/17469/reddit-api-pricing-change-before-july-1/
- https://www.metaculus.com/questions/19332/israel-deadly-attack-on-iran-before-2024/
- https://polymarket.com/event/will-trump-attend-the-first-rnc-debate?tid=1708586828523
- https://www.metaculus.com/questions/14253/trump-indictment-in-2023/
- https://polymarket.com/event/will-barbie-gross-2x-more-than-oppenheimer-on-opening-weekend
- https://pypi.org/project/newspaper4k/
- https://www.newscatcherapi.com/