ストリームフロー予測のためのLSTMの進展
LSTMモデルを使うことで、世界中の水文研究で流量予測が向上するよ。
― 1 分で読む
機械学習は水文学の分野でますます重要になってきてる。従来の物理ベースのモデルを補完したり、置き換えたりするためによく使われてるんだ。特に、再帰型ニューラルネットワーク(RNN)を使って、観測された降水量や地理的特徴に基づいて流量を予測するのが注目されてる。アメリカ全土でのRNNの研究では、一つのモデルが多様な地域でうまく機能し、従来のモデルよりも優れていることもあった。この研究は、河川の水を陸面モデル(LSM)でルーティングするためのRNNの有効性を検証することを目指してる。降水データの代わりに、物理ベースのモデルから得られる流出データを使うんだ。RNNは世界中の流域のデータで訓練され、流量を予測するためにテストされるよ。
表面水サイクルの重要性
表面水の動き方を理解することは気候モデルにとって必須なんだ。河川のルーティングは、土地から海に流出を移動させるプロセスで、地球の環境システムをシミュレーションする上で重要な役割を果たしてる。こうしたルーティングモデルは海洋モデルに淡水を供給し、水資源の管理や洪水リスクの評価に役立つ、特に気候条件の変化がある時にはね。
河川モデルがLSMの中で効果的に機能するためには、異なる時間や場所で均等に適用される必要がある。季節的なサイクルや降水に対する表面流出の早い反応を考慮しなきゃいけない。水文学の大きな課題は、これらのモデルがさまざまな流域での挙動を予測できることを保証することなんだ。特に、多くの流域では十分な測定システムがないこともあるから、この点が重要なんだ。バスジン一般化と呼ばれるこの側面では、監視された流域のデータを基に他の地域の流量を予測することが含まれてる。
この問題に取り組むためのアプローチはいくつかあって、グローバルバスジン一般化のように、一つの地域で得られた知識を世界中の他の地域に適用することを目指してる。ただ、単一流域データに大きく依存するモデルは、効果的に一般化するのが難しいことが多い。
物理ベースのモデリング
従来の河川モデルは、浅水方程式を適応させて水の動きを説明することが多い。主に、丘陵のルーティングと河川チャンネルのルーティングの二つのプロセスを考えてる。丘陵のルーティングは、水が土地を流れる様子を見て、地形や土壌の種類、植物の影響を受けるんだ。このプロセスは通常、流出が集まり河川に流れ込むまでの遅れがあるんだ。河川チャンネルのルーティングは、河川システム内の水の動きに重点を置いている。
物理ベースのモデルの利点は、確立された物理法則を使って水の質量保存を保証することができること。これは気候モデルの長期シミュレーションにとって重要なんだ。物理原則に基づくから、モデルの結果を簡単に解釈できるんだ。
最近、Long-Short-Term-Memory(LSTM)モデル-一種のRNN-が降水-流出問題において従来のモデルよりも良いパフォーマンスを示してる。例えば、ある研究ではアメリカ全体の降水データで訓練されたLSTMモデルを流量予測に使ったんだ。このモデルには温度や表面圧力など他の要因も含まれてた。ただ、このモデルは異なる流域間での水の移動を考慮してなかったんだ。
研究の目的
ここでの目標は、降水-流出モデル(LSTM)をグローバルLSMで使えるように適応させること。このために、モデルの設計や訓練プロトコルにいくつかの修正を行う予定なんだ。
次のセクションでは、データの準備や機械学習モデルの訓練方法など、モデルのさまざまな部分を紹介するよ。それから、モデルが時間や異なる流域でどれだけうまく機能するかを示す結果を見せるつもり。最後に、主な知見を論じて、今後の研究の方向性を提案するね。
データ準備
プロジェクトの最初のステップは、世界中のキャリブレーションとシミュレーションをサポートする一貫したデータセットを作成することだった。グローバルデータを使うことが重要で、河川ルーティングモデルは訓練に使った地域だけでなく、さまざまな地域で機能する必要があるからね。このデータセットを作るためには、時間とともに変化する動的入力(降水量や温度など)と、各流域の物理的特徴を説明する静的属性が必要なんだ。
HydroSHEDSデータセットは、地球を異なる流域に分ける方法を提供して、多様な特性に関するデータを収集できる。各流域には、さまざまなグローバルデジタルマップから導出された静的属性が含まれて、分析している流域の詳細がわかるようになってる。
動的入力変数は時間とともに変化し、表面および地下の流出、温度、表面圧力、太陽放射などが含まれる。モデルには質量属性(表面および地下の流出)のみが必要だけど、追加の変数を含めることで全体の精度が向上するんだ。これらの動的入力は、日々計算されて時系列データを形成するよ。
流量データの収集
流量測定はグローバル流出データセンターから収集された。これらの記録を特定の流域と結びつけるために、地理的座標に基づいて各ゲージがどの流域に入るかを特定する方法を使った。時折、ゲージのある流域の定義と使用している地域が一致しないことがあって、誤差の原因になってた。誤割り当てを減らすために、ゲージと流域の面積差を20%に制限するフィルターを適用した。十分なデータ記録があるゲージのみを訓練用に選んだんだ。
処理された流量データは、グリッドベースのデータから計算された動的入力とマッチングされた。結果的に、このデータセットがモデルの予測の基盤となるよ。
LSTMモデル
RNNは逐次データに対応するように設計されていて、過去の情報が現在の予測に影響を与えるタスクに理想的なんだ。私たちのLSTMモデルは、日次の時系列データを入力として、表面および地下の流出、他の動的および静的属性を含むんだ。出力は日次の流量予測になるよ。
LSTMは、従来のRNNで見られるいくつかの制限を克服して、データ内の長期的な依存関係を効果的に管理できる。この特徴は、水の流れをモデル化する上で特に関連性が高くて、現在の流量が過去の流出条件に依存することが多いからね。
強みがある一方で、LSTM自体は水の質量保存を保証するものではない。これは、質量バランスが必要な陸面モデリングで使うモデルには心配の手だ。今後の開発では、モデルの構造を見直したり、訓練目標を調整するなど、質量保存を確保するための戦略を取り入れる予定。
モデル評価
モデルのパフォーマンスを評価するために、二つの指標を使う予定:ナッシュ-サットクリフ効率(NSE)とクリン-グプタ効率(KGE)。NSEはモデルの予測が観測された流量とどれだけ一致しているかを測り、KGEは予測精度を相関、変動性、バイアスの要素に分解するよ。どちらの指標でもスコアが高いほど、モデルのフィットが良いことを示してる。
分析では、異なる訓練やテストのセットアップが、さまざまな流域や期間を通じてモデルの一般化能力にどう影響するかも探る予定。実験では、アメリカのデータで訓練したモデルとグローバルデータで訓練したモデルを比較するつもりなんだ。
実験結果
分析の最初のフェーズは、アメリカのデータで訓練されたモデルとグローバルデータを使ったモデルのパフォーマンスに焦点を当ててる。異なる入力を比較したところ、流出データを使用することで降水データを使用するのと同じようなパフォーマンスが得られたんだ。
バスジン一般化に関しては、グローバルデータセットから選ばれた流域で訓練されたモデルが、見たことのない流域に対してテストされた。モデルの一般化能力は、より多様な訓練データセットで向上することがわかった。ただし、流域分割パフォーマンスを調べると、時間分割のセットアップと比べて正確な予測ができなかったんだ。
さらに実験を行い、LSTMモデルと従来の物理ベースのモデルであるLISFLOODの性能を比較した。LSTMモデルはゲージがあるシナリオでは良い結果を示したけど、無ゲージのケースでは劣っていて、改善の余地があることがわかったよ。
パフォーマンスの洞察
結果は、LSTMモデルは訓練に十分なデータがある地域で最もパフォーマンスが良く、データが限られている地域では苦戦することを示唆してる。また、明らかな傾向もあって、乾燥した地域ほどモデルのパフォーマンスが悪かった。この発見は、こうした乾燥地でよく起こる急激な流出イベントを捉えるのが難しいことを指摘してる。
モデルは異なる流域サイズ全体で堅牢な時間一般化能力を示したけど、大きな流域での結果がより良かった。異なる流域レベルの評価に再キャリブレーションが不要だったのも、広い応用においての強みを示してる。
結論
この研究は、気候モデルにおける河川水のルーティングにLSTMを使う可能性を示してる。LSTMモデルは、特にグローバルな流出データで訓練された場合に良い結果を示してる。多様なグローバルな場所で流量を予測する能力は、水文学的モデリングの重要な一歩を表してる。
これらのモデルを改善するための努力は、水の質量保存を保証するための構造変更を統合したり、接続された流域間でのエラーを最小化する訓練方法を開発することに焦点を当てる予定。結果は、陸面モデルにおける効果的な水のルーティングのために機械学習方法を洗練するためのさらなる研究が必要であることを強調してる。
この研究で使用された全データセットは一般にアクセス可能で、モデルは透明性を持って開発されていて、今後の研究活動におけるさらなる探求と洗練が可能になってるよ。
タイトル: Toward Routing River Water in Land Surface Models with Recurrent Neural Networks
概要: Machine learning is playing an increasing role in hydrology, supplementing or replacing physics-based models. One notable example is the use of recurrent neural networks (RNNs) for forecasting streamflow given observed precipitation and geographic characteristics. Training of such a model over the continental United States (CONUS) has demonstrated that a single set of model parameters can be used across independent catchments, and that RNNs can outperform physics-based models. In this work, we take a next step and study the performance of RNNs for river routing in land surface models (LSMs). Instead of observed precipitation, the LSM-RNN uses instantaneous runoff calculated from physics-based models as an input. We train the model with data from river basins spanning the globe and test it using historical streamflow measurements. The model demonstrates skill at generalization across basins (predicting streamflow in catchments not used in training) and across time (predicting streamflow during years not used in training). We compare the predictions from the LSM-RNN to an existing physics-based model calibrated with a similar dataset and find that the LSM-RNN outperforms the physics-based model: a gain in median NSE from 0.56 to 0.64 (time-split experiment) and from 0.30 to 0.34 (basin-split experiment). Our results show that RNNs are effective for global streamflow prediction from runoff inputs and motivate the development of complete routing models that can capture nested sub-basis connections.
著者: Mauricio Lima, Katherine Deck, Oliver R. A. Dunbar, Tapio Schneider
最終更新: 2024-12-05 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2404.14212
ソースPDF: https://arxiv.org/pdf/2404.14212
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。