Avaliando Modelos de Linguagem para Previsões Futuras
Este estudo analisa se modelos de linguagem conseguem igualar as habilidades de previsão dos humanos.
― 6 min ler
Índice
- Importância da Previsão
- Nossa Abordagem
- Componentes do Sistema
- Sistema de Recuperação
- Sistema de Raciocínio
- Avaliação de Desempenho
- Coleta de Conjunto de Dados
- Processo de Otimização do Sistema
- Ajuste Fino
- Busca por Hiperparâmetros
- Avaliação do Sistema
- Previsão Seletiva
- Combinando Previsões
- Conclusão
- Direções Futuras
- Fonte original
- Ligações de referência
Prever eventos futuros é importante pra tomar decisões tanto no governo quanto nos negócios. Esse estudo investiga se modelos de linguagem (LMs) conseguem prever resultados de forma parecida com especialistas humanos. A gente criou um sistema que ajuda os LMs a encontrarem informações relevantes, fazer previsões e combinar diferentes previsões. Pra testar isso, reunimos um grande conjunto de perguntas de plataformas de Previsão competitivas.
Descobrimos que as previsões do nosso sistema estavam perto da média das previsões humanas e, em alguns casos, até melhores. Isso sugere que usar LMs pra previsão pode oferecer previsões precisas e apoiar processos de decisão importantes.
Importância da Previsão
Prever é essencial em várias áreas hoje em dia. Governos precisam de previsões econômicas e geopolíticas pra se planejar. Negócios dependem de previsões de mercado pra tomar decisões de investimento. Por exemplo, previsões durante a pandemia de COVID-19 influenciaram os lockdowns globais.
Tem dois tipos principais de previsão:
- Previsão Estatística: Esse método usa ferramentas matemáticas pra analisar dados ao longo do tempo. Funciona bem quando tem muitos dados e mudanças mínimas nos padrões.
- Previsão Julgamental: Essa abordagem depende da intuição e expertise humana. Os preditores atribuem probabilidades a eventos futuros usando dados históricos e conhecimento sobre a situação. Esse método é útil mesmo com dados limitados.
A gente vai se referir à previsão julgamental apenas como "previsão".
Os esforços humanos em prever podem ser caros e demorados. Além disso, essas previsões geralmente não explicam os resultados previstos. Isso destaca o potencial de usar modelos de linguagem pra automatizar parte do processo de previsão.
Os modelos de linguagem podem analisar e gerar texto rapidamente, tornando-se ferramentas eficientes e pontuais pra previsão. Eles são treinados com dados extensos da internet, dando a eles um conhecimento amplo em várias áreas. Eles também podem fornecer razões pras suas previsões quando solicitados.
Nossa Abordagem
Nosso objetivo é construir um sistema de previsão que se concentre em prever resultados binários. Nosso sistema automatiza três partes principais da previsão tradicional:
- Recuperação: Coletar informações relevantes de fontes de notícias.
- Raciocínio: Analisar os dados e fazer uma previsão.
- Agregação: Combinar diferentes previsões em uma previsão final.
Cada parte desse processo usa ou LMs ou um grupo deles.
Pra melhorar nosso sistema e avaliar seu desempenho, criamos um conjunto de dados considerável de perguntas de previsão de várias plataformas. Nosso conjunto de testes inclui apenas perguntas binárias publicadas após 1º de junho de 2023. Esse cronograma garante que não haja sobreposição entre nossos dados de treinamento e os dados com os quais os modelos foram treinados.
Os dados de treinamento consistem em perguntas feitas antes de 1º de junho de 2023, que usamos pra ajustar nosso sistema.
Componentes do Sistema
Sistema de Recuperação
O primeiro passo envolve gerar consultas de busca a partir da pergunta. O LM pega a pergunta e cria consultas de busca pra encontrar artigos usando APIs de notícias. Depois, ele classifica esses artigos com base na relevância e resume os melhores.
Sistema de Raciocínio
O sistema pega a pergunta e os artigos resumidos pra gerar previsões. Os resultados são então combinados em uma previsão final usando um método estatístico chamado média truncada.
Avaliação de Desempenho
Pra avaliar quão bem nosso sistema se sai, comparamos ele à média das previsões humanas. Usando o Brier score, uma métrica comum pra precisão de previsão, descobrimos que nosso sistema se aproxima ou até supera previsões humanas em alguns casos.
Coleta de Conjunto de Dados
As perguntas de previsão são coletadas de plataformas competitivas como Metaculus, Good Judgment Open, INFER, Polymarket e Manifold. O conjunto de dados abrange uma variedade de tópicos e prazos, de 2015 a 2024.
Pra garantir a qualidade do conjunto de dados, filtramos perguntas que são confusas ou excessivamente pessoais, e focamos em perguntas binárias. Incluímos apenas perguntas em nosso conjunto de testes que foram publicadas após a data limite de conhecimento dos nossos modelos pra evitar vazamento de dados.
Após o processo de curadoria, terminamos com um conjunto de dados limpo de perguntas binárias, separado em conjuntos de treinamento, validação e teste.
Processo de Otimização do Sistema
Ajuste Fino
A gente refina nosso modelo de linguagem pra que ele gere previsões e explicações precisas. Isso envolve rodar o sistema em perguntas de treinamento, coletar várias saídas e ajustar o modelo com base naquelas que se saíram bem em relação às médias humanas.
Busca por Hiperparâmetros
Pra otimizar nosso sistema, fazemos uma busca por hiperparâmetros pra encontrar as melhores configurações pra recuperação e raciocínio. Isso envolve ajustar vários parâmetros e avaliar quais configurações geram os melhores resultados de previsão.
Avaliação do Sistema
Testamos nosso sistema final contra o conjunto de testes, confirmando que ele se sai perto das previsões humanas. Nossa avaliação inclui diferentes medidas de precisão, como Brier score e precisão geral das previsões, pra entender quão bem o sistema está indo.
Previsão Seletiva
A gente também observa uma abordagem de previsão seletiva onde o sistema só faz previsões sob condições específicas, aproveitando seus pontos fortes. Nesse cenário, nosso sistema conseguiu superar o preditor humano médio.
Combinando Previsões
Descobrimos que combinar as previsões do nosso sistema com previsões humanas produziu resultados ainda melhores. Isso mostra que nosso modelo pode servir como uma ferramenta valiosa ao lado de métodos tradicionais de previsão.
Conclusão
Nosso trabalho mostra o potencial de usar modelos de linguagem pra tarefas de previsão. Nosso sistema automatizado é quase tão eficaz quanto preditores humanos habilidosos, e os métodos que desenvolvemos podem ajudar a informar decisões significativas em várias áreas. Também liberamos nosso conjunto de dados pra futuras pesquisas nessa área.
Direções Futuras
Tem muitas oportunidades pra melhorar ainda mais nosso sistema. Por exemplo, podemos explorar maneiras de refinar nossos dados de treinamento, adaptar o sistema a domínios específicos e garantir que os modelos continuem a evoluir conforme os desafios de previsão mudam.
Em resumo, nosso sistema automatizado de previsão representa um grande avanço no uso de modelos de linguagem pra prever eventos futuros, abrindo caminho pra abordagens mais escaláveis e eficientes nos processos de tomada de decisão.
Título: Approaching Human-Level Forecasting with Language Models
Resumo: Forecasting future events is important for policy and decision making. In this work, we study whether language models (LMs) can forecast at the level of competitive human forecasters. Towards this goal, we develop a retrieval-augmented LM system designed to automatically search for relevant information, generate forecasts, and aggregate predictions. To facilitate our study, we collect a large dataset of questions from competitive forecasting platforms. Under a test set published after the knowledge cut-offs of our LMs, we evaluate the end-to-end performance of our system against the aggregates of human forecasts. On average, the system nears the crowd aggregate of competitive forecasters, and in some settings surpasses it. Our work suggests that using LMs to forecast the future could provide accurate predictions at scale and help to inform institutional decision making.
Autores: Danny Halawi, Fred Zhang, Chen Yueh-Han, Jacob Steinhardt
Última atualização: 2024-02-28 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.18563
Fonte PDF: https://arxiv.org/pdf/2402.18563
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.onthisday.com/events/date/2023/
- https://www.infer-pub.com/frequently-asked-questions
- https://www.metaculus.com/api2/questions/15973/
- https://www.youtube.com/live/-1wcilQ58hI
- https://twitter.com/nextspaceflight/status/1648797064183128065
- https://twitter.com/SciGuySpace/status/1648498635355865089
- https://twitter.com/nextspaceflight/status/1648425030018293760
- https://twitter.com/SpaceX/status/1648092752893313024
- https://polymarket.com/event/will-kevin-mccarthy-resign-from-the-house-by-nov-30?tid=1708585271779
- https://www.metaculus.com/questions/17469/reddit-api-pricing-change-before-july-1/
- https://www.metaculus.com/questions/19332/israel-deadly-attack-on-iran-before-2024/
- https://polymarket.com/event/will-trump-attend-the-first-rnc-debate?tid=1708586828523
- https://www.metaculus.com/questions/14253/trump-indictment-in-2023/
- https://polymarket.com/event/will-barbie-gross-2x-more-than-oppenheimer-on-opening-weekend
- https://pypi.org/project/newspaper4k/
- https://www.newscatcherapi.com/