天気予測のための深層学習モデルの比較
天気予報における異なるDLWPモデルの効果に関する研究。
― 1 分で読む
ディープラーニングによる気象予測(DLWP)モデルは、近年大きな進展を遂げたよ。今では、数値気象予測(NWP)として知られる従来の気象予測方法と強く対抗できる存在だと見なされてるんだ。U-Net、Transformer、グラフニューラルネットワーク(GNN)、フーリエニューラルオペレーター(FNO)など、いろんなDLWPモデルが大気条件の予測において期待できる結果を示しているよ。
でも、これらのモデルはトレーニング方法や使うデータ、予測の長さが違うから、どのモデルが気象予測に最適なのかはっきりしてないんだ。この記事では、ナビエ-ストークス方程式からの合成データと実際の気象データを使って、主要なDLWPモデルを比較するための厳密な研究を紹介するよ。
研究の目的
私たちの研究の主な目標は、DLWPモデルを次の基準で評価することだよ:
- 短期から中期の予測を正確に行える能力。
- 長期予測を行う際の安定性。
- 天候パターンに基づいた意味のある予測を提供できる能力。
コミュニティが最も適したDLWPモデルを選べて、これらのモデルを比較する標準化された方法を作る手助けがしたいんだ。
方法論
私たちの分析では、制御された条件下でいろんなDLWPモデルを評価したよ。まずは合成データから彼らのパフォーマンスを測った。その後、実際の気象データに移行したんだ。
合成データの実験
最初に、ナビエ-ストークス方程式に基づく2次元の合成データを生成して、パフォーマンスを評価したよ。この方程式は流体がどう動くかを示していて、気象ダイナミクスの予測には関連性があるんだ。
実験では、次の3つの主要な質問に焦点を当てた:
- 滞留の少ない環境での挙動を予測するのに最適なモデルはどれか?
- より滞留の多い条件でテストすると結果は変わるのか?
- トレーニングサンプルの数がモデルのパフォーマンスにどう影響するか?
滞留の少ないデータは低いレイノルズ数で生成し、滞留の多いデータは高いレイノルズ数で生成した。各モデルは、どうパフォーマンスを発揮するかを評価するために、さまざまなサンプル数でトレーニングしたんだ。
実際の気象データ
合成データのテストが終わったら、実際のデータに移行して、以前の結果がまだ成り立つかを確認したよ。WeatherBenchっていう歴史的な気象データを含むデータセットを使ったんだ。
この実際のデータで答えようとした質問は次の通り:
- 短期から中期の予測に最適なモデルはどれか?
- 長期予測ではモデルはどう機能するか?
- そのモデルは実際の気象現象を正確に反映する予測を作れるのか?
合成データ実験の結果
合成データ実験では、さまざまな条件下で異なるモデルがどれだけパフォーマンスを発揮したかを見たよ。例えば、FNOモデルは滞留の少ないデータを予測するのに強い結果を示した。一方で、滞留の多いデータでは、いくつかのモデルが正確な予測を出すのに苦労していたね。
モデルのパフォーマンスはルート平均二乗誤差(RMSE)で評価した。RMSEの値が低いほどパフォーマンスが良いってことだ。
結果として、TFNO2Dモデルがトップパフォーマーだったよ、特に滞留の少ない条件で。トレーニングサンプルの数を増やしてもパフォーマンスは安定してた。
SwinTransformerやConvLSTMのような他のモデルは、滞留のレベルやパラメータの数によって様々な成功を示したけど、どのモデルも制限があって、すべての条件で常に他のモデルを上回ることはなかったんだ。
実際の気象データの結果
実際のデータに移ると、いくつかの興味深い発見があった。ここでは、モデルは実際の気象イベントに対する予測能力で評価されたよ。
短期から中期の予測では、ConvLSTMやSwinTransformerのようなモデルがベストな選択肢の一つだった。これらは14日先の天候条件を効果的に予測したよ。
でも、長期予測に進むと、ConvLSTMなどいくつかのモデルは精度を維持するのに苦労し始めた。長期間にわたって非現実的な予測をもたらしたんだ。
また、モデルが知られている天候パターン、例えば風のパターンをどれだけ再現できるかも調べたよ。いくつかのモデルは、自然の中でのこれらのパターンに合った予測を生成するのが得意だった。
特に、SFNOやGraphCastのようなモデルは、気候予測に重要な安定した長期予測を生成するのに強いパフォーマンスを示したんだ。
考察
結果として、DLWPモデルは期待できるものの、それぞれ独自の強みと弱みがあることがわかったよ。モデルの選択は、予測のニーズ、つまり予測期間や気象イベントの複雑さに依存するかもしれない。
短期から中期の予測
14日までの予測では、ConvLSTMとSwinTransformerが信頼できる選択肢として浮かび上がったよ。これらのモデルは、さまざまな気象パターンにすぐに適応して、短期的な予測に効果的だ。現在のデータと過去の情報を両方取り入れる能力が、彼らの予測力を高めてる。
長期予測
1年やそれ以上の長期予測を行うと、モデルはより大きな課題に直面するよ。多くのモデルは、ある時点を過ぎると非現実的な予測をし始めたんだ、しばしば予測の不安定さが原因で。
でも、SFNOとGraphCastは、長期予測を行っても適度な精度を維持することができた。この安定性は気象モデルには重要で、気候予測の基盤を提供し、天候に依存するアクティビティに関する意思決定プロセスを助けるんだ。
モデルの物理的表現
私たちの研究の興味深い点は、モデルの物理的健全性だ。一部のモデルは、実際の気象現象に対応した予測を生成するのに他よりも優れていたよ。気象を支配する物理法則にどれだけモデルが従うかを理解することは、開発者が現在のモデルを改善したり新しいモデルを作ったりするのに役立つだろう。
結論
まとめると、DLWPモデルの評価から、モデルの選択が予測精度に大きく影響することがわかったよ。各モデルは、評価される時間枠や条件に基づいて強みと弱みがあるんだ。
短期から中期の予測には、ConvLSTMとSwinTransformerが強力な候補だ。長期予測においては、SFNOとGraphCastがより安定した選択肢として目立つよ。
今後の研究では、これらのモデルの効果を高めるために、アーキテクチャを微調整したりトレーニングプロトコルを改善したりすることに焦点を当てる予定だ。目指すのは、気象を正確に予測するだけでなく、私たちの大気を支配する物理原則に密接に一致するモデルを作ることだ。
気象予測技術が進化し続ける中で、コミュニティ内でのコラボレーションや議論が重要になるよ。改良されたモデリングの取り組みは、最終的により良い気象予測につながり、世界中のさまざまな分野やコミュニティに利益をもたらすことになるんだ。
タイトル: Comparing and Contrasting Deep Learning Weather Prediction Backbones on Navier-Stokes and Atmospheric Dynamics
概要: Remarkable progress in the development of Deep Learning Weather Prediction (DLWP) models positions them to become competitive with traditional numerical weather prediction (NWP) models. Indeed, a wide number of DLWP architectures -- based on various backbones, including U-Net, Transformer, Graph Neural Network (GNN), and Fourier Neural Operator (FNO) -- have demonstrated their potential at forecasting atmospheric states. However, due to differences in training protocols, forecast horizons, and data choices, it remains unclear which (if any) of these methods and architectures are most suitable for weather forecasting and for future model development. Here, we step back and provide a detailed empirical analysis, under controlled conditions, comparing and contrasting the most prominent DLWP models, along with their backbones. We accomplish this by predicting synthetic two-dimensional incompressible Navier-Stokes and real-world global weather dynamics. In terms of accuracy, memory consumption, and runtime, our results illustrate various tradeoffs. For example, on synthetic data, we observe favorable performance of FNO; and on the real-world WeatherBench dataset, our results demonstrate the suitability of ConvLSTM and SwinTransformer for short-to-mid-ranged forecasts. For long-ranged weather rollouts of up to 365 days, we observe superior stability and physical soundness in architectures that formulate a spherical data representation, i.e., GraphCast and Spherical FNO. In addition, we observe that all of these model backbones "saturate," i.e., none of them exhibit so-called neural scaling, which highlights an important direction for future work on these and related models. The code is available at https://github.com/amazon-science/dlwp-benchmark.
著者: Matthias Karlbauer, Danielle C. Maddix, Abdul Fatir Ansari, Boran Han, Gaurav Gupta, Yuyang Wang, Andrew Stuart, Michael W. Mahoney
最終更新: 2024-10-02 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2407.14129
ソースPDF: https://arxiv.org/pdf/2407.14129
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://cds.climate.copernicus.eu/toolbox/doc/how-to/13_how_to_calculate_climatologies_and_anomalies/13_how_to_calculate_climatologies_and_anomalies.html
- https://ww2010.atmos.uiuc.edu/
- https://www.eoas.ubc.ca/courses/atsc113/sailing/met_concepts/09-met-winds/9a-global-wind-circulations/
- https://github.com/NVIDIA/modulus/tree/main/modulus/models/graphcast
- https://tex.stackexchange.com/questions/149807/autoref-subsections-in-appendix