Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Inteligência Artificial# Computação e linguagem# Recuperação de informação

Avaliando Modelos de Linguagem para Previsões Futuras

Este estudo analisa se modelos de linguagem conseguem igualar as habilidades de previsão dos humanos.

― 6 min ler


Modelos de Linguagem emModelos de Linguagem emPrevisãocom os especialistas.dos modelos de linguagem em comparaçãoEsse estudo avalia a precisão preditiva
Índice

Prever eventos futuros é importante pra tomar decisões tanto no governo quanto nos negócios. Esse estudo investiga se modelos de linguagem (LMs) conseguem prever resultados de forma parecida com especialistas humanos. A gente criou um sistema que ajuda os LMs a encontrarem informações relevantes, fazer previsões e combinar diferentes previsões. Pra testar isso, reunimos um grande conjunto de perguntas de plataformas de Previsão competitivas.

Descobrimos que as previsões do nosso sistema estavam perto da média das previsões humanas e, em alguns casos, até melhores. Isso sugere que usar LMs pra previsão pode oferecer previsões precisas e apoiar processos de decisão importantes.

Importância da Previsão

Prever é essencial em várias áreas hoje em dia. Governos precisam de previsões econômicas e geopolíticas pra se planejar. Negócios dependem de previsões de mercado pra tomar decisões de investimento. Por exemplo, previsões durante a pandemia de COVID-19 influenciaram os lockdowns globais.

Tem dois tipos principais de previsão:

  1. Previsão Estatística: Esse método usa ferramentas matemáticas pra analisar dados ao longo do tempo. Funciona bem quando tem muitos dados e mudanças mínimas nos padrões.
  2. Previsão Julgamental: Essa abordagem depende da intuição e expertise humana. Os preditores atribuem probabilidades a eventos futuros usando dados históricos e conhecimento sobre a situação. Esse método é útil mesmo com dados limitados.

A gente vai se referir à previsão julgamental apenas como "previsão".

Os esforços humanos em prever podem ser caros e demorados. Além disso, essas previsões geralmente não explicam os resultados previstos. Isso destaca o potencial de usar modelos de linguagem pra automatizar parte do processo de previsão.

Os modelos de linguagem podem analisar e gerar texto rapidamente, tornando-se ferramentas eficientes e pontuais pra previsão. Eles são treinados com dados extensos da internet, dando a eles um conhecimento amplo em várias áreas. Eles também podem fornecer razões pras suas previsões quando solicitados.

Nossa Abordagem

Nosso objetivo é construir um sistema de previsão que se concentre em prever resultados binários. Nosso sistema automatiza três partes principais da previsão tradicional:

  1. Recuperação: Coletar informações relevantes de fontes de notícias.
  2. Raciocínio: Analisar os dados e fazer uma previsão.
  3. Agregação: Combinar diferentes previsões em uma previsão final.

Cada parte desse processo usa ou LMs ou um grupo deles.

Pra melhorar nosso sistema e avaliar seu desempenho, criamos um conjunto de dados considerável de perguntas de previsão de várias plataformas. Nosso conjunto de testes inclui apenas perguntas binárias publicadas após 1º de junho de 2023. Esse cronograma garante que não haja sobreposição entre nossos dados de treinamento e os dados com os quais os modelos foram treinados.

Os dados de treinamento consistem em perguntas feitas antes de 1º de junho de 2023, que usamos pra ajustar nosso sistema.

Componentes do Sistema

Sistema de Recuperação

O primeiro passo envolve gerar consultas de busca a partir da pergunta. O LM pega a pergunta e cria consultas de busca pra encontrar artigos usando APIs de notícias. Depois, ele classifica esses artigos com base na relevância e resume os melhores.

Sistema de Raciocínio

O sistema pega a pergunta e os artigos resumidos pra gerar previsões. Os resultados são então combinados em uma previsão final usando um método estatístico chamado média truncada.

Avaliação de Desempenho

Pra avaliar quão bem nosso sistema se sai, comparamos ele à média das previsões humanas. Usando o Brier score, uma métrica comum pra precisão de previsão, descobrimos que nosso sistema se aproxima ou até supera previsões humanas em alguns casos.

Coleta de Conjunto de Dados

As perguntas de previsão são coletadas de plataformas competitivas como Metaculus, Good Judgment Open, INFER, Polymarket e Manifold. O conjunto de dados abrange uma variedade de tópicos e prazos, de 2015 a 2024.

Pra garantir a qualidade do conjunto de dados, filtramos perguntas que são confusas ou excessivamente pessoais, e focamos em perguntas binárias. Incluímos apenas perguntas em nosso conjunto de testes que foram publicadas após a data limite de conhecimento dos nossos modelos pra evitar vazamento de dados.

Após o processo de curadoria, terminamos com um conjunto de dados limpo de perguntas binárias, separado em conjuntos de treinamento, validação e teste.

Processo de Otimização do Sistema

Ajuste Fino

A gente refina nosso modelo de linguagem pra que ele gere previsões e explicações precisas. Isso envolve rodar o sistema em perguntas de treinamento, coletar várias saídas e ajustar o modelo com base naquelas que se saíram bem em relação às médias humanas.

Busca por Hiperparâmetros

Pra otimizar nosso sistema, fazemos uma busca por hiperparâmetros pra encontrar as melhores configurações pra recuperação e raciocínio. Isso envolve ajustar vários parâmetros e avaliar quais configurações geram os melhores resultados de previsão.

Avaliação do Sistema

Testamos nosso sistema final contra o conjunto de testes, confirmando que ele se sai perto das previsões humanas. Nossa avaliação inclui diferentes medidas de precisão, como Brier score e precisão geral das previsões, pra entender quão bem o sistema está indo.

Previsão Seletiva

A gente também observa uma abordagem de previsão seletiva onde o sistema só faz previsões sob condições específicas, aproveitando seus pontos fortes. Nesse cenário, nosso sistema conseguiu superar o preditor humano médio.

Combinando Previsões

Descobrimos que combinar as previsões do nosso sistema com previsões humanas produziu resultados ainda melhores. Isso mostra que nosso modelo pode servir como uma ferramenta valiosa ao lado de métodos tradicionais de previsão.

Conclusão

Nosso trabalho mostra o potencial de usar modelos de linguagem pra tarefas de previsão. Nosso sistema automatizado é quase tão eficaz quanto preditores humanos habilidosos, e os métodos que desenvolvemos podem ajudar a informar decisões significativas em várias áreas. Também liberamos nosso conjunto de dados pra futuras pesquisas nessa área.

Direções Futuras

Tem muitas oportunidades pra melhorar ainda mais nosso sistema. Por exemplo, podemos explorar maneiras de refinar nossos dados de treinamento, adaptar o sistema a domínios específicos e garantir que os modelos continuem a evoluir conforme os desafios de previsão mudam.

Em resumo, nosso sistema automatizado de previsão representa um grande avanço no uso de modelos de linguagem pra prever eventos futuros, abrindo caminho pra abordagens mais escaláveis e eficientes nos processos de tomada de decisão.

Mais de autores

Artigos semelhantes