Avaliando Modelos de Linguagem na Previsão de Eventos
Esse estudo avalia as habilidades de previsão dos modelos de linguagem em comparação com os humanos.
― 9 min ler
Índice
- A Importância da Previsão
- Modelos de Linguagem e Tarefas de Previsão
- Pesquisas Anteriores sobre Previsão Humana
- Dados de Séries Temporais e Previsões
- Automatizando Previsões de Eventos do Mundo Real
- Desafios na Construção do Conjunto de Dados
- Usando Dados do Mercado de Previsão GleanGen
- Analisando Eventos no Conjunto de Dados
- Avaliando o Desempenho com a Pontuação Brier
- Estratégias de Previsão Utilizadas
- Comparando Modelos e Desempenho
- Analisando Viés de Desempenho
- Avaliação de Previsões Inversas
- Conclusões da Pesquisa
- Direções Futuras na Pesquisa de LLM
- Fonte original
Avanços em aprendizado profundo permitiram que grandes Modelos ficassem melhores em várias tarefas, como classificar imagens e fazer provas. Esses modelos estão se tornando mais habilidosos, mas ainda enfrentam desafios na hora de prever eventos futuros. Essa pesquisa analisa como esses grandes modelos de linguagem (LLMs) podem prever resultados e compara suas previsões com as feitas por humanos.
Previsão
A Importância daAo longo da história, os humanos tentaram usar informações do passado para prever o que vai acontecer no futuro. Muitas carreiras, como política e previsão do tempo, dependem da capacidade de prever eventos futuros com precisão. No entanto, julgar a precisão dessas previsões nem sempre é fácil. Muitas vezes, as previsões são vagas, o que dificulta medir quem estava certo.
Por exemplo, se um analista político diz que um candidato "pode vencer", ele pode afirmar que estava certo se o candidato ganhar. Por outro lado, se o candidato perder, o analista ainda pode alegar que estava certo dizendo que não tinha certeza. Essa ambiguidade complica a avaliação das previsões.
Para resolver esses desafios, alguns estudos analisaram como as pessoas se saem ao fazer previsões em ambientes controlados. Um desses estudos organizou um torneio onde vários preditores faziam previsões sobre eventos específicos, medindo sua precisão e identificando quais estratégias levaram a melhores previsões.
Modelos de Linguagem e Tarefas de Previsão
Esse estudo explora se os LLMs conseguem fazer previsões tão boas quanto ou melhores que as dos humanos. Criamos um novo conjunto de Dados sobre eventos do mundo real e previsões feitas por humanos sobre esses eventos. Depois, usamos vários métodos para avaliar a capacidade de previsão dos LLMs e comparamos seus resultados com os dos preditores humanos.
Nossa pesquisa mostra que, embora alguns métodos de previsão de LLMs tenham um bom desempenho, eles muitas vezes não superam as previsões humanas. Queremos entender por que esses modelos às vezes enfrentam dificuldades e sugerir maneiras de melhorar suas habilidades de previsão.
Pesquisas Anteriores sobre Previsão Humana
A ideia de estudar a previsão humana começou com pesquisas que investigaram como as pessoas se saem em torneios de previsão. Esses torneios reúnem uma variedade de eventos e pedem aos participantes que prevejam a probabilidade deles. Eles são avaliados com base na proximidade de suas previsões em relação aos resultados reais.
Alguns pesquisadores descobriram que certos indivíduos consistentemente faziam previsões mais precisas do que outros. Eles identificaram estratégias que pareciam correlacionar com melhores previsões, que usamos como inspiração para desenvolver prompts para nossos preditores baseados em LLM.
Dados de Séries Temporais e Previsões
Uma área onde os LLMs têm sido utilizados é com dados de séries temporais, onde eles prevêem valores futuros com base em pontos de dados passados. Nesse contexto, os LLMs analisam uma sequência de informações e fazem previsões contínuas, em vez de prever um único evento.
A previsão de séries temporais foi aplicada a vários problemas práticos, como prever o tráfego ou tendências de vendas. Estudos anteriores mostraram que os LLMs podem ter um bom desempenho com dados de séries temporais, usando técnicas como o ajuste fino dos modelos para tarefas específicas.
Automatizando Previsões de Eventos do Mundo Real
Além da previsão de séries temporais, pesquisadores começaram a olhar para como automatizar previsões para eventos únicos do mundo real. Estudos descobriram que os LLMs podem, às vezes, igualar ou superar o desempenho humano ao fazer uma média das previsões de vários modelos ou ajustá-los com base em dados históricos.
Nosso estudo se baseia nesse trabalho anterior ao usar estratégias bem testadas em nossos prompts de LLM. Queremos ver se essas estratégias melhoram o desempenho do LLM em comparação com modelos de linha de base.
Desafios na Construção do Conjunto de Dados
Criar um conjunto de dados para avaliar o desempenho de previsão vem com desafios únicos. A maioria das tarefas usadas para avaliar os LLMs normalmente tem conjuntos de dados estáticos. Em contraste, a tarefa de previsão deve avaliar modelos com base em eventos que já ocorreram, garantindo que o modelo não tenha sido treinado com informações sobre esses resultados.
Por exemplo, perguntar a um modelo quem vai ganhar uma eleição passada não mede seu poder preditivo. É crucial avaliar os modelos com eventos que ocorreram após o término dos dados de treinamento.
Além disso, as informações necessárias para fazer boas previsões podem mudar ao longo do tempo. O que parece difícil de prever uma semana pode ficar mais claro na semana seguinte devido a novos desenvolvimentos. Isso torna essencial comparar o desempenho do modelo com a precisão humana no mesmo ponto no tempo para obter uma avaliação justa.
Usando Dados do Mercado de Previsão GleanGen
Para enfrentar esses desafios, usamos o mercado de previsões GleanGen, onde os usuários especulam sobre a probabilidade de eventos futuros. A plataforma envolve centenas de participantes negociando probabilidades com base em eventos bem definidos.
O conjunto de dados consiste em detalhes dos eventos, previsões dos participantes e os resultados finais desses eventos. Cada evento tem critérios específicos, um prazo e uma data de resolução que identifica se foi verdadeiro ou falso.
Analisando Eventos no Conjunto de Dados
Focamos nossa análise em quatro categorias principais: Covid-19, Finanças, Indústria de Tecnologia e Diversos. Filtramos eventos que eram internos ao Google para garantir um campo de jogo nivelado, resultando em um conjunto de dados final que incluiu mais de 700 eventos com previsões humanas.
As previsões para esses eventos abrangem várias resoluções e categorias. A maioria dos eventos teve resolução negativa, indicando que as condições para muitas previsões não foram atendidas.
Pontuação Brier
Avaliando o Desempenho com aPara medir o desempenho de previsão dos modelos, usamos a Pontuação Brier, uma ferramenta estatística que avalia a precisão das previsões com base na probabilidade prevista e no resultado real. Essa pontuação varia de 0 para uma previsão perfeita a 1 para uma previsão completamente errada.
Também introduzimos uma Pontuação Brier Ponderada para levar em conta a distribuição desigual de eventos positivos e negativos em nosso conjunto de dados. Esse método permite uma avaliação mais sutil do desempenho do modelo.
Estratégias de Previsão Utilizadas
Utilizamos várias estratégias conhecidas por ajudar preditores humanos, incluindo:
- Dividir Eventos: Essa tática envolve dividir eventos complexos em subeventos menores e mais fáceis de prever.
- Usar Taxas Básicas: Essa estratégia observa dados históricos para estabelecer uma linha de base para eventos relacionados.
- Considerar Ambos os Lados: Esse método examina fatores que podem apoiar ou desafiar a probabilidade de um evento ocorrer.
- Crowd Sourcing: Ao fazer uma média das previsões de vários modelos de LLM, a abordagem aproveita a sabedoria coletiva de várias pessoas.
- Integrar Notícias Externas: Aqui, integramos manchetes de notícias atuais nas previsões, dando ao modelo um contexto adicional para trabalhar.
Comparando Modelos e Desempenho
Comparamos nossos modelos de previsão de LLM com previsões humanas e estabelecemos linhas de base. Os resultados revelaram algumas surpresas. O modelo mais simples, que só precisava de um prompt básico para fazer previsões, às vezes se saiu melhor do que preditores humanos.
Esse resultado sugere que algumas complexidades adicionadas para previsões mais sofisticadas podem ter prejudicado o desempenho em vez de melhorá-lo. Além disso, a alta precisão do modelo básico indicou um possível viés em direção à previsão de probabilidades mais baixas, especialmente já que a maioria dos eventos em nosso conjunto de dados teve resolução negativa.
Analisando Viés de Desempenho
Para explorar mais o desempenho do modelo, examinamos como diferentes fatores impactaram as previsões. Uma observação notável foi que o modelo básico tinha a tendência de produzir estimativas de baixa probabilidade para muitos eventos. Desenvolvemos uma série de análises para apoiar essa hipótese.
Ao comparar o desempenho de modelos que simplesmente forneciam respostas com aqueles que incluíam raciocínio, encontramos que exigir racionalizações tendia a aumentar as probabilidades previstas. Isso implica que solicitar aos modelos que pensem mais profundamente sobre suas previsões muitas vezes leva a estimativas mais altas, mas menos precisas.
Avaliação de Previsões Inversas
Realizamos outro experimento revertendo os eventos para que pudéssemos comparar as previsões do modelo sobre os eventos originais com as dos cenários invertidos. Os resultados mostraram um padrão consistente onde as previsões para os eventos originais eram muito mais baixas do que o esperado, indicando um viés em direção a estimativas de baixa probabilidade.
Conclusões da Pesquisa
No geral, nosso estudo concluiu que, embora os LLMs mostrem potencial em tarefas de previsão, eles ainda têm limitações em comparação com preditores humanos. O sucesso do modelo básico destacou a necessidade de mais pesquisas sobre como os viéses dos modelos e as distribuições de dados podem impactar as previsões.
Além disso, a introdução da Pontuação Brier Ponderada se mostrou benéfica ao revelar insights sobre o desempenho do modelo que poderiam ter passado despercebidos.
Pesquisas futuras devem se concentrar em combinar estratégias humanas com LLMs, aprimorando a colaboração entre preditores humanos e modelos inteligentes, além de explorar novos métodos para traduzir técnicas de previsão comprovadas em aplicações de LLM.
Direções Futuras na Pesquisa de LLM
Este trabalho contribui para as discussões em andamento sobre as capacidades dos LLMs em prever eventos futuros. Ao entender como esses modelos se comparam com previsões humanas e quais fatores influenciam seu desempenho, podemos melhorar os LLMs para previsões mais confiáveis no futuro.
Nossos achados incentivam uma exploração mais aprofundada sobre como refinar modelos, otimizar a seleção de dados e identificar maneiras de misturar a expertise humana com previsões impulsionadas por modelos de forma eficaz.
Título: Can Language Models Use Forecasting Strategies?
Resumo: Advances in deep learning systems have allowed large models to match or surpass human accuracy on a number of skills such as image classification, basic programming, and standardized test taking. As the performance of the most capable models begin to saturate on tasks where humans already achieve high accuracy, it becomes necessary to benchmark models on increasingly complex abilities. One such task is forecasting the future outcome of events. In this work we describe experiments using a novel dataset of real world events and associated human predictions, an evaluation metric to measure forecasting ability, and the accuracy of a number of different LLM based forecasting designs on the provided dataset. Additionally, we analyze the performance of the LLM forecasters against human predictions and find that models still struggle to make accurate predictions about the future. Our follow-up experiments indicate this is likely due to models' tendency to guess that most events are unlikely to occur (which tends to be true for many prediction datasets, but does not reflect actual forecasting abilities). We reflect on next steps for developing a systematic and reliable approach to studying LLM forecasting.
Autores: Sarah Pratt, Seth Blumberg, Pietro Kreitlon Carolino, Meredith Ringel Morris
Última atualização: 2024-06-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.04446
Fonte PDF: https://arxiv.org/pdf/2406.04446
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.