GNAR-edgeを使った時系列関係のモデル化
ネットワークエッジの時系列データを分析する新しいアプローチ。
― 1 分で読む
多くの分野、特に経済やファイナンスでは、相互に関連する複数の時系列データを扱うことがよくあるんだ。これらの関係は、時系列が異なるアイテム間の接続を示すネットワークを使って表せる。このリポートでは、こうしたネットワーク構造を使ってデータをより良く解釈したり、未来の値を予測する方法について話すよ。
接続された時系列をモデル化する一般的な方法は2つある。1つ目は、各時系列を別々に見て、自己回帰モデルというモデルを使う方法。これはシンプルで早いけど、全ての時系列を組み合わせた情報をフルに活用してるわけじゃない。2つ目は、すべての時系列を一緒にモデル化するVector Autoregressive(VaR)という技術を使う方法。これだと全ての系列間の関係を考慮できるけど、時系列が増えるにつれて結構複雑になっちゃう。
VARモデルのいくつかの課題に対処するために、研究者たちは一番大事な接続にだけ注目してモデルをシンプルにしようとしてる。一つ人気の方法は、Lassoベースの手法で、モデル化の過程でペナルティを加えて接続の数を制限するやり方。別の研究では、遅延係数の構造を考慮するHierarchical Lag Group(HLAG)という手法を紹介した。他にも、ベイズ法や因子モデルを使って複雑さを減らすアプローチもあるよ。
ネットワーク構造があることがわかってる時系列では、モデル化の初期段階でこの情報を使うのが助けになる。これによって、ネットワーク化された時系列のために特別に設計されたVARモデルが生まれるんだ。
もう一つの一般的なシナリオは、ノードのようなネットワークの特定の位置にリンクされた時系列をモデル化すること。最近の研究は、このタイプのデータを基に結果を予測するネットワークモデルを開発することに焦点を当ててる。例えば、ある研究では隣接ノードからの直接的な影響を含むモデルを作成した。このモデルは、影響が時間とともに一定であると仮定してる。
でも、私たちの焦点は少し違う。具体的には、ネットワークのエッジに表現される時系列データに興味があるんだ。これらは時間とともに変動する値を示す。例えば、私たちは産業間の取引を時間の経過とともに見ていて、産業はネットワークのノードとして表現されてるよ。
このリポートでは、GNAR-edgeモデルというモデルを紹介する。このモデルは、隣接するエッジ間の関係を考慮することで、ネットワーク情報を効果的にキャッチする方法を提供してくれる。他の研究と同様に、私たちはネットワーク構造が時間を通して変わらないと仮定するよ。
モチベーションとなるデータの例
私たちの研究は、英国のビジネストランザクションに関する匿名化された情報を含むデータセットに触発されてる。このデータは、異なる産業セクターがどのように相互作用しているかを示していて、数年にわたって記録されてる。このデータセットは、これらの産業セクター間のペアワイズ取引に関する時系列で構成されてて、SICコードとしても知られているよ。データをネットワークとして見ると、各SICコードがノードで、取引がエッジの重みとして表されるんだ。
データは数年にわたるもので、たくさんの月ごとの取引記録がある。毎月別のネットワークを作ることもできるけど、基礎構造は大体同じで、取引の重みだけが変わる。だから、ネットワーク構造を時間通りに固定して扱うのが自然な選択なんだ。
これらの取引は、しばしば広範な経済トレンドを反映する。主要な経済イベントは、セクター間の相互作用に影響を与えることがあるから、未来の取引を正確に予測することが重要なんだ。このネットワークを理解することで、経済ショックが産業にどのように広がるかも把握できるかもしれない。
この文脈で、私たちは2つの重要な質問を探るよ:
- 未来の取引の規模を正確に予測できるかな?
- 基盤のネットワーク構造を使うことで予測を強化できるかな?
背景
通常のシナリオでは、複数の時系列のデータが固定の長さで観測される。VARモデルは、こうしたデータを分析するための一般的なアプローチで、各変数の過去の値を使って未来の値を予測する。ただ、時系列の数が増えるにつれてこのモデルの複雑さが急速に増して、大きなネットワークに使うのが難しくなる。複雑さを管理するために、データ内の最も重要な接続に焦点を当てるアプローチが提案されてるよ。
事前にネットワーク構造がわかっていれば、それに応じてVARモデルを調整できる。ネットワークの近隣構造は、重要な影響だけを考慮することでモデル化の複雑さを減らす手段を提供してくれる。
私たちの研究では、ネットワークのエッジ上に表現された時系列データを考慮するモデルに焦点を移す。つまり、ノード間の接続を理解することが重要になってくるんだ。エッジは貴重な情報を持ってるからね。
GNAR-edgeモデル
これまでの研究に触発されて、GNAR-edgeモデルは与えられた時点でのエッジの重みが、その過去の値だけでなく隣接エッジの過去の値にも依存していると仮定してる。これにより、データに存在する関係をより包括的にモデル化できるようになる。隣接エッジを考慮することで、ネットワークのダイナミクスをより効果的に捉えることができるんだ。
モデルはネットワークが固定されているが、エッジの重みは時間とともに変わると仮定している。これにより、ネットワークの構造に沿ってこれらの時系列を効果的に表現できる。
次のステップは、GNAR-edgeモデルのパラメータ推定と予測の性能を評価するために合成データ実験を実施することだよ。
合成データ実験
このセクションでは、GNAR-edgeモデルがさまざまなシナリオでどのくらいうまく機能するかを評価する実験を行うよ。まずは中程度のサイズのモデルを見て、次に実際のデータアプリケーションに見られるような大きなネットワークにスケールアップするよ。
推定性能
中程度のサイズのネットワークについて、さまざまなパラメータ仕様とネットワーク構造に基づいてシミュレーションを行う。ネットワークを生成し、これらの構造に基づいて時系列をシミュレートした後、GNAR-edgeモデルをデータにフィットさせる。
分析中に、推定されたパラメータが真の値にどれほど近いかを調べる。GNAR-edgeモデルは全体的に良い結果を示し、推定の誤差が少なく、信頼区間のカバレッジ率も高い。
結果は、このモデルが基礎となるパラメータを効果的にキャッチしていて、わずかな変動にとどまっていることを示している。この一貫性は、GNAR-edgeモデルがこうした時系列データを分析するのに信頼できるアプローチであることを示してるよ。
予測性能
次に、GNAR-edgeモデルの予測力に注目する。中程度のネットワークに対して、GNAR-edgeモデルを標準のVARモデルおよび各時系列を個別に見る自己回帰(AR)モデルと比較する。
結果は、GNAR-edgeモデルが両方のベースラインモデルを一貫して上回っていることを示している。これにより、ネットワーク構造を取り入れることが未来の値の予測能力を大いに向上させることがわかる。
異なるネットワーク密度がモデルの性能にどう影響するかも調べる。予想通り、隣接効果を持つGNAR-edgeモデルは、よりスパースなネットワークでパフォーマンスが良いことが観察され、このデータ解釈における接続の重要性が強調される。
実データの応用
先に述べたビジネストランザクションデータセットにGNAR-edgeモデルを適用する。このデータセットは密接に接続されてるから、ネットワークの複雑さを減らすプロセス、ネットワークスパース化という方法を提案するよ。
ネットワークスパース化
リード・ラグ分析を使用して、時系列間の最も重要な関係を特定する。このプロセスは、強い接続に焦点を当てながら、弱い接続を捨てるのに役立つ。目標は、最も情報性の高いエッジを保持して予測性能を改善するネットワークを作成すること。
スパース化したネットワークができたら、GNAR-edgeモデルをトレーニングデータにフィットさせて、最後のタイムスタンプを予測する。この結果は、元のスパース化されていないネットワークと比較して予測誤差が大幅に減少することを示している。
モデルフィット評価
実データにどれだけモデルがフィットしているかを評価するために、予測からの残差を分析する。残差の分布を時間で見て、モデルが期待通りに動作するかどうかを確認する。残差は全体的に良いフィットを示すが、いくつかの外れ値があり、モデルは一般的なトレンドを捉えているものの、全ての変動を完全には説明しきれていないことを示唆している。
結論
この論文では、ネットワークのエッジ上に表現された時系列データを分析するための新しいモデルを紹介する。GNAR-edgeモデルは、ネットワーク化された時系列間の関係を効果的に活用し、正確な予測能力を向上させる。私たちの実験は、モデルの性能を検証し、従来のアプローチに対する強さを示している。
結果は、ネットワーク構造を考慮することが未来予測アプリケーションにおいて重要であることを示唆している。また、ネットワークスパース化へのアプローチが予測の精度を高める可能性があることも示している。
今後は、エッジによって形成されたコミュニティ構造を探求し、それを私たちのモデルフレームワークに組み込むことができるかもしれない。これにより、ネットワークデータに存在する複雑な関係についての理解が深まり、さらに良いモデル化技術につながる可能性があるよ。
タイトル: The GNAR-edge model: A network autoregressive model for networks with time-varying edge weights
概要: In economic and financial applications, there is often the need for analysing multivariate time series, comprising of time series for a range of quantities. In some applications such complex systems can be associated with some underlying network describing pairwise relationships among the quantities. Accounting for the underlying network structure for the analysis of this type of multivariate time series is required for assessing estimation error and can be particularly informative for forecasting. Our work is motivated by a dataset consisting of time series of industry-to-industry transactions. In this example, pairwise relationships between Standard Industrial Classification (SIC) codes can be represented using a network, with SIC codes as nodes and pairwise transactions between SIC codes as edges, while the observed time series of the amounts of the transactions for each pair of SIC codes can be regarded as time-varying weights on the edges. Inspired by Knight et al. (2020), we introduce the GNAR-edge model which allows modelling of multiple time series utilising the network structure, assuming that each edge weight depends not only on its past values, but also on past values of its neighbouring edges, for a range of neighbourhood stages. The method is validated through simulations. Results from the implementation of the GNAR-edge model on the real industry-to-industry data show good fitting and predictive performance of the model. The predictive performance is improved when sparsifying the network using a lead-lag analysis and thresholding edges according to a lead-lag score.
著者: Anastasia Mantziou, Mihai Cucuringu, Victor Meirinhos, Gesine Reinert
最終更新: 2023-09-26 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.16097
ソースPDF: https://arxiv.org/pdf/2305.16097
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。