AMD MPSoCの信頼性に対する放射線影響の評価
この記事は、大気放射がAMD UltraScale+のパフォーマンスにどんな影響を与えるかを分析してるよ。
― 1 分で読む
現代のコンピュータデバイス、特にマルチプロセッサシステムオンチップ(MPSoC)システムは、自動車、航空、データセンターなど様々な分野で広く使われてるよ。これらのシステムは、複数の処理ユニットとプログラム可能な論理を組み合わせて、アプリケーションに柔軟性をもたらしてるんだ。でも、デザインのせいで環境中の放射線、特に中性子による影響に敏感になることがあるんだよね。
この記事では、大気放射線がAMD UltraScale+ XCZU9EG MPSoCの信頼性にどんな影響を与えるかを話して、それに対するさまざまなアプリケーションの対応力を評価するよ。いろんなワークロード、テスト技術を探って、高高度や大規模な環境で動作するシステムにとって何を意味するのかを見ていくね。
背景
MPSoCって何?
マルチプロセッサシステムオンチップ(MPSoC)は、処理素子とプログラム可能な論理を一つのチップに統合したものだ。この組み合わせは柔軟性と効率を提供して、いろんなアプリケーションに適してるんだ。でも、設定を保存するために使われる埋め込みメモリは、特に単一イベント効果(SEE)による放射線の影響に対する脆弱性を追加しちゃうんだよね。
放射線の影響
宇宙線や太陽活動からの放射線は、中性子のような二次粒子を生成することがあるんだ。この中性子がMPSoCの半導体材料に衝突すると、一時的なエラーが発生することがあって、それを単一イベントアップセット(SEU)って呼ぶんだ。これらのエラーはメモリや処理ユニットに影響して、適切に管理しないとシステムの故障につながることがあるんだよ。
研究の目的
主な目標は、AMD UltraScale+ XCZU9EGが中性子放射線にさらされたとき、特に高高度シナリオやデータセンターのような大規模なアプリケーションでどれだけ耐久性があるかを評価することだ。この研究では、埋め込みエラーチェックメカニズムの効果や、さまざまな動作条件下での全体的な信頼性についての重要な質問に答えることを目指してるんだ。
テスト手法
放射線テスト
加速放射線テストは、デバイスが中性子にさらされたときにどのように反応するかを評価するための標準的な方法なんだ。AMD UltraScale+ XCZU9EGは、地球の大気中の中性子レベルを模した放射線源にさらされて、その脆弱性を理解しようとしてるよ。
評価したワークロード
評価にはいろんなワークロードが含まれてるよ:
- すべての論理リソースを利用するシンプルな合成ベンチマーク。
- ベアメタルで動作するシングルスレッドベンチマーク。
- 天気予測やポーズ推定のようなタスクに使うマルチスレッドアプリケーション。
- 深層学習技術を使った画像分類のためのソフトウェア/ハードウェア共同設計アプリケーション。
実験から得られた主な発見
断面積測定
断面積は、MPSoCのさまざまな部分が放射線の影響を受けやすさを理解するための指標なんだ。放射線イベントがエラーにつながる可能性を定量化するよ。テストの結果、以下がわかったんだ:
- 設定用に使われるSRAM(静的RAM)は、放射線に対して少し敏感なことが示されたよ。
- MPSoCのプログラム可能論理(PL)と処理システム(PS)コンポーネントも、さまざまな程度の脆弱性を示したんだ。
平均故障時間(MTTF)
MTTFは信頼性を評価する際に重要な指標なんだ。テストしたワークロードの場合:
- MPSoCは、高高度でシングルスレッドアプリケーションを実行したときに148ヶ月以上のMTTFを示したよ。
- でも、深層学習のような複雑なソフトウェア/ハードウェアアプリケーションはMTTFがかなり低くなってて、追加のエラーチェック方法が必要だってことを強調してるんだ。
結果についての議論
動作環境
MPSoCのMTTFは、動作環境によって大きく異なるよ。NYCの海面レベルでは、システムは非常に信頼性があったんだ。でも、高高度や多くのノードが使われている大規模なセットアップでは、エラーに対する感受性が増してしまったんだ。
エラーチェックメカニズム
半導体ベンダーは、メモリアップセットを管理するためのエラー回復方法を組み込んでるよ。これには:
- パリティチェック。
- 単一エラー訂正および二重エラー検出(SECDED)。
これらのメカニズムは多くのケースで効果的だったけど、すべてのアプリケーションには十分じゃなかった、特に大規模な処理ロジックを利用するものにはね。
アプリケーションとその耐久性
ソフトウェア専用アプリケーション
ソフトウェア専用のアプリケーションは、組み込まれたエラーチェックメカニズムのおかげで、信頼性のある動作を実現したよ。結果は、放射線にさらされてもパフォーマンスは安定してて、出力にも影響はなかったんだ。
ソフトウェア/ハードウェア共同設計アプリケーション
一方で、ソフトウェアとハードウェアロジックを組み合わせた複雑なアプリケーションは、より頻繁にエラーが発生して信頼性が低下したよ。これらのアプリケーションは、時々計算結果を変えるクリティカルなエラーを生じることがあったんだ。これは、耐久性を向上させるためにハードウェア冗長性のような追加のメカニズムが必要だってことを示してるね。
結論
AMD UltraScale+ XCZU9EG MPSoCは、制御された環境では頑丈さを示したけど、大気放射線、特に高高度や大規模アプリケーションには脆弱だってことがわかったんだ。エラー回復技術はかなりの保護を提供するけど、より要求されるソフトウェア/ハードウェア共同設計アプリケーションには不十分なことがあるんだよね。
未来に向けては、挑戦的な環境で動作するMPSoCシステムの信頼性を確保するために、ソフトウェアとハードウェアのエラー緩和を組み合わせたハイブリッド技術を考えることが重要だよ。これによって、航空や自律運転などの重要なアプリケーションでの技術への依存が安全で信頼できるものになるようにするんだ。
推奨事項
今後の研究
今後の研究は以下に焦点を当てるべきだよ:
- エラー緩和技術の強化。
- 様々な環境におけるMPSoC性能の長期モニタリング。
- 高リスクエリアでのMPSoCシステム展開のためのガイドラインの開発。
実践的ガイドライン
- 定期的なテスト:高高度や大規模なアプリケーションで使用するデバイスには、定期的な放射線テストを行うこと。
- 高度なエラーチェック:高いエラー率が予想される複雑なアプリケーションには、より高度なエラーチェックメカニズムを探求すること。
- 現実のシナリオ:現実のシナリオでMPSoCの信頼性をテストして、さまざまな条件下での時間経過に伴う性能をデータ収集すること。
これらのステップを踏むことで、より信頼できるシステムを構築し、大気放射線に対する限界をよりよく理解することができるんだ。こうしたアプローチは、さまざまな分野で複雑なコンピューティングシステムへの依存がますます高まる中で、重要になってくるよ。
タイトル: Single Event Effects Assessment of UltraScale+ MPSoC Systems under Atmospheric Radiation
概要: The AMD UltraScale+ XCZU9EG device is a Multi-Processor System-on-Chip (MPSoC) with embedded Programmable Logic (PL) that excels in many Edge (e.g., automotive or avionics) and Cloud (e.g., data centres) terrestrial applications. However, it incorporates a large amount of SRAM cells, making the device vulnerable to Neutron-induced Single Event Upsets (NSEUs) or otherwise soft errors. Semiconductor vendors incorporate soft error mitigation mechanisms to recover memory upsets (i.e., faults) before they propagate to the application output and become an error. But how effective are the MPSoC's mitigation schemes? Can they effectively recover upsets in high altitude or large scale applications under different workloads? This article answers the above research questions through a solid study that entails accelerated neutron radiation testing and dependability analysis. We test the device on a broad range of workloads, like multi-threaded software used for pose estimation and weather prediction or a software/hardware (SW/HW) co-design image classification application running on the AMD Deep Learning Processing Unit (DPU). Assuming a one-node MPSoC system in New York City (NYC) at 40k feet, all tested software applications achieve a Mean Time To Failure (MTTF) greater than 148 months, which shows that upsets are effectively recovered in the processing system of the MPSoC. However, the SW/HW co-design (i.e., DPU) in the same one-node system at 40k feet has an MTTF = 4 months due to the high failure rate of its PL accelerator, which emphasises that some MPSoC workloads may require additional NSEU mitigation schemes. Nevertheless, we show that the MTTF of the DPU can increase to 87 months without any overhead if one disregards the failure rate of tolerable errors since they do not affect the correctness of the classification output.
著者: Dimitris Agiakatsikas, Nikos Foutris, Aitzan Sari, Vasileios Vlagkoulis, Ioanna Souvatzoglou, Mihalis Psarakis, Ruiqi Ye, John Goodacre, Mikel Lujan, Maria Kastrioto, Carlo Cazzaniga, Chris Frost
最終更新: 2023-02-21 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2303.08098
ソースPDF: https://arxiv.org/pdf/2303.08098
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。