Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 機械学習# 人工知能# 計算と言語# 情報検索

未来予測のための言語モデルの評価

この研究は、言語モデルが人間の予測能力に匹敵できるかを調べてるよ。

― 1 分で読む


予測における言語モデル予測における言語モデルと比較して評価しているんだ。この研究は、言語モデルの予測精度を専門家
目次

未来の出来事を予測することは、政府やビジネスの意思決定にとって重要なんだ。この研究では、言語モデル(LM)が熟練した人間の予測者と同じように結果を予測できるかどうかを見ていくよ。LMが関連情報を見つけて、予測を行い、異なる予測を組み合わせるのを手助けするシステムを作ったんだ。それを試すために、競争型予測プラットフォームからたくさんの質問を集めたよ。

私たちのシステムの予測は、人間の予測の平均に近く、場合によってはそれ以上の精度を持っていることが分かったんだ。これは、LMを使った予測が正確な予測を提供し、重要な意思決定プロセスを支えることができることを示唆しているよ。

予測の重要性

予測は今日のさまざまな分野にとって欠かせないものなんだ。政府は計画のために経済や地政学の予測が必要だし、ビジネスは投資判断のために市場の予測に依存している。例えば、COVID-19パンデミックの際の予測は、世界的なロックダウンに影響を与えたんだ。

予測には2つの主要なタイプがあるよ:

  1. 統計的予測:この方法は、時系列データを分析するために数学的ツールを使うよ。データが豊富でパターンの変化が少ないときにうまく機能するんだ。
  2. 判断的予測:このアプローチは、人間の直感と専門知識に依存するんだ。予測者は、過去のデータと状況に関する知識を使って未来の出来事に確率を割り当てるよ。この方法は、限られたデータでも役立つんだ。

判断的予測は単に「予測」と呼ぶことにするね。

人間の予測はコストがかかり、時間もかかることが多いんだ。また、そのような予測はしばしば予想された結果の説明が不足しているよ。これが、言語モデルを使って予測プロセスの一部を自動化する可能性を示しているよ。

言語モデルはテキストを迅速に分析して生成できるため、コスト効率が良く、タイムリーな予測ツールとして使えるんだ。インターネットの大量のデータで訓練されているから、さまざまな分野にわたる広範な知識を持っているんだよ。さらに、尋ねられたときにはその予測の理由も提供できるんだ。

私たちのアプローチ

私たちの目標は、二項結果を予測することに焦点を当てた予測システムを構築することだよ。私たちのシステムは、伝統的な予測の3つの主要な部分を自動化しているんだ:

  1. 情報収集:ニュースソースから関連情報を集めること。
  2. 推論:データを分析して予測を行うこと。
  3. 集約:異なる予測を一つの最終予測にまとめること。

このプロセスの各部分は、言語モデルまたはそのグループを使っているよ。

システムを改善し、性能を評価するために、さまざまなプラットフォームからの予測質問の大規模なデータセットを作成したんだ。私たちのテストセットには、2023年6月1日以降に公開された二項質問だけを含めているよ。このタイムラインのおかげで、私たちの訓練データとモデルが訓練されたデータの間で重複がないことを保証しているんだ。

訓練データは2023年6月1日以前に尋ねられた質問で構成されていて、これを使ってシステムの微調整を行うよ。

システムの構成要素

情報収集システム

最初のステップは、質問から検索クエリを生成することだよ。LMは質問を取り込んで、ニュースAPIを使って記事を見つけるための検索クエリを作成するんだ。それから、関連性に基づいてこれらの記事をランク付けし、上位のものを要約するよ。

推論システム

システムは質問と要約された記事を使って予測を生成するんだ。その結果は、トリム平均という統計的な方法を使って最終予測にまとめられるよ。

性能評価

私たちのシステムの性能を評価するために、人間の予測の平均と比較するんだ。予測の精度を測るための一般的な指標であるブライヤースコアを使って、私たちのシステムが人間の予測に近づいているか、場合によってはそれを超えているかを確認するよ。

データセット収集

予測質問は、MetaculusやGood Judgment Open、INFER、Polymarket、Manifoldなどの競争型プラットフォームから集めたよ。このデータセットは、2015年から2024年までのさまざまなトピックとタイムフレームをカバーしているんだ。

データセットの質を確保するために、不明瞭な質問や個人的すぎる質問を除外して、二項質問に焦点を当てているよ。私たちは、モデルの知識のカットオフ日以降に公開された質問のみをテストセットに含めて、データ漏洩を防いでいるんだ。

キュレーションプロセスの後、私たちは二項質問のクリーンなデータセットを得て、訓練、検証、テストセットに分けたよ。

システム最適化プロセス

微調整

私たちは、言語モデルが正確な予測と説明を生成するように微調整するんだ。これは、訓練質問でシステムを実行し、さまざまな出力を集めて、人間の平均に対して良いパフォーマンスを示したものに基づいてモデルを微調整することを含むよ。

ハイパーパラメータ探索

システムを最適化するために、情報収集と推論のための最適な設定を見つけるためにハイパーパラメータのスイープを行うんだ。これには、さまざまなパラメータを調整し、どの構成が最適な予測結果をもたらすかを評価することが含まれるよ。

システム評価

私たちは最終システムをテストセットに対してテストして、人間の予測に近いパフォーマンスを確認したんだ。私たちの評価には、ブライヤースコアや全体の予測精度など、さまざまな精度の測定が含まれていて、システムのパフォーマンスを理解するんだ。

選択的予測

私たちは、特定の条件下でのみ予測を行う選択的予測アプローチも見ているよ。ここでは、システムがその強みを活かしているんだ。この設定では、私たちのシステムは平均的な人間の予測者を上回ることができたよ。

予測の組み合わせ

私たちは、システムの予測を人間の予測と組み合わせることで、さらに良い結果を得られることが分かったんだ。これにより、私たちのモデルが伝統的な予測方法と共に価値あるツールとして機能できることが示されたよ。

結論

私たちの研究は、言語モデルを予測タスクに使う可能性を示しているんだ。私たちの自動化システムは、熟練した人間の予測者とほぼ同じくらい効果的で、私たちが開発した方法はさまざまな分野での重要な意思決定をサポートできるんだ。私たちはまた、この分野の今後の研究のためにデータセットを公開したよ。

今後の方向性

私たちのシステムをさらに改善する機会はたくさんあるよ。例えば、訓練データを改良する方法を探ったり、特定のドメインにシステムを適応させたり、予測の課題が変わるにつれてモデルが進化し続けることを確保したりできるんだ。

要するに、私たちの自動化された予測システムは、未来の出来事を予測するための言語モデルの使用において大きな進歩を示していて、意思決定プロセスにおけるよりスケーラブルで効率的なアプローチの道を切り開いているんだ。

オリジナルソース

タイトル: Approaching Human-Level Forecasting with Language Models

概要: Forecasting future events is important for policy and decision making. In this work, we study whether language models (LMs) can forecast at the level of competitive human forecasters. Towards this goal, we develop a retrieval-augmented LM system designed to automatically search for relevant information, generate forecasts, and aggregate predictions. To facilitate our study, we collect a large dataset of questions from competitive forecasting platforms. Under a test set published after the knowledge cut-offs of our LMs, we evaluate the end-to-end performance of our system against the aggregates of human forecasts. On average, the system nears the crowd aggregate of competitive forecasters, and in some settings surpasses it. Our work suggests that using LMs to forecast the future could provide accurate predictions at scale and help to inform institutional decision making.

著者: Danny Halawi, Fred Zhang, Chen Yueh-Han, Jacob Steinhardt

最終更新: 2024-02-28 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2402.18563

ソースPDF: https://arxiv.org/pdf/2402.18563

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事

ヒューマンコンピュータインタラクション会話型AIがソフトウェアエンジニアリングのパフォーマンスに与える影響

この研究は、AIがソフトウェアエンジニアの生産性と信頼にどんな影響を与えるかを調べてるんだ。

― 1 分で読む