(邦訳:低遅延相互結合網のためのケーブルジオメトリックおよび節度あるエラー防止のアプローチ)
Truong Thao Nguyen 産業技術総合研究所/東京工業大学実社会ビッグデータ活用 オープンイノベーションラボラトリ研究員 |
[背景]大規模並列計算機の相互結合網の性能向上要求
[問題]低遅延性,広帯域性,最低限の信頼性の確保
[貢献]並列計算の実行性能向上
[問題]低遅延性,広帯域性,最低限の信頼性の確保
[貢献]並列計算の実行性能向上
数十年にわたり,計算科学およびコンピュータ産業は,大量のデータ処理を可能にする大規模並列計算機の低遅延相互結合網を研究してきた.本研究では,それらの動向を整理し,10万計算ノード規模のスーパーコンピュータに代表される大規模並列計算機の相互結合網で要求される「低遅延性(例:10万計算ノード間最長1μ秒)」「高帯域性(例:計算ノードあたり100GByte/s)」「信頼性」を実現するネットワークアーキテクチャを示した.具体的にはネットワークトポロジ,カスタムルーティング,通信リンクという3つの構成要素を分析・検討し,それぞれに関する性能向上の手法を示した.また,ネットワークシミュレーションにより,それら3つの技術を統合した相互結合網において,大規模計算機における並列計算のさらなる高速化が成されることを示した.
ネットワークトポロジに関して,遠くの計算ノードへのショートカットリンクの活用およびパケットの移動距離を抑制することで通信遅延に占めるケーブル伝搬遅延の削減の2点を特徴とする手法を提案した.提案したネットワークトポロジは,同じリンク数,スイッチ数を用いて構成された3次元トーラスと比べて,通信遅延が削減できることをネットワークシミュレーションにより示した.さらに,ネットワークトポロジの直径と平均最短経路長を解析した結果,提案手法により設計されたネットワークトポロジ(図)は3次元トーラスなどの実用化されているネットワークトポロジと比べてホップ数の面で優れていることを示している.また,実際の大規模計算機は,運用開始後に計算ノード数を増加させることが多いため,相互結合網の拡張性が必要となる.提案したネットワークトポロジは,計算ノードを追加した場合においてホップ数の増加を抑制する効果があり,有利であることを示した.
カスタムルーティングに関しては,相互結合網の大規模化にともない,スイッチの処理時間に占めるフォワーディングテーブルのパケット参照時間の増大,および,複雑なネットワークトポロジの登場によりルーティング処理の複雑化という2つの問題点を指摘した.そして,解決するための手法として,計算ノードの位置情報を用いた計算アルゴリズムにより実装可能なカスタムルーティングを提案し,計算ノード間の通信時間が削減できることをネットワークシミュレーションにより示している.
通信リンクに関して,今後,相互結合網の通信リンクの帯域が大きくなるにつれて,通信リンクのビット誤り率が劇的に悪化し,その結果,エラー検出訂正処理にかかわる遅延がパケットの通信時間の支配的要因になる問題点を指摘した.この問題点を解決するために,アプリケーション毎に必要となる解の精度を最低限満たすように,エラー検出訂正処理を簡略化することでネットワークの低遅延化を実現する手法を提案している.提案手法は大規模計算機における並列計算の高速化が達成されることをネットワークシミュレーションにより示している.これらの成果は,今後さらなる大規模化が見込まれる計算基盤を構築するための技術的な問題を解決した点で,学術上貢献が大きい.
ネットワークトポロジに関して,遠くの計算ノードへのショートカットリンクの活用およびパケットの移動距離を抑制することで通信遅延に占めるケーブル伝搬遅延の削減の2点を特徴とする手法を提案した.提案したネットワークトポロジは,同じリンク数,スイッチ数を用いて構成された3次元トーラスと比べて,通信遅延が削減できることをネットワークシミュレーションにより示した.さらに,ネットワークトポロジの直径と平均最短経路長を解析した結果,提案手法により設計されたネットワークトポロジ(図)は3次元トーラスなどの実用化されているネットワークトポロジと比べてホップ数の面で優れていることを示している.また,実際の大規模計算機は,運用開始後に計算ノード数を増加させることが多いため,相互結合網の拡張性が必要となる.提案したネットワークトポロジは,計算ノードを追加した場合においてホップ数の増加を抑制する効果があり,有利であることを示した.
カスタムルーティングに関しては,相互結合網の大規模化にともない,スイッチの処理時間に占めるフォワーディングテーブルのパケット参照時間の増大,および,複雑なネットワークトポロジの登場によりルーティング処理の複雑化という2つの問題点を指摘した.そして,解決するための手法として,計算ノードの位置情報を用いた計算アルゴリズムにより実装可能なカスタムルーティングを提案し,計算ノード間の通信時間が削減できることをネットワークシミュレーションにより示している.
通信リンクに関して,今後,相互結合網の通信リンクの帯域が大きくなるにつれて,通信リンクのビット誤り率が劇的に悪化し,その結果,エラー検出訂正処理にかかわる遅延がパケットの通信時間の支配的要因になる問題点を指摘した.この問題点を解決するために,アプリケーション毎に必要となる解の精度を最低限満たすように,エラー検出訂正処理を簡略化することでネットワークの低遅延化を実現する手法を提案している.提案手法は大規模計算機における並列計算の高速化が達成されることをネットワークシミュレーションにより示している.これらの成果は,今後さらなる大規模化が見込まれる計算基盤を構築するための技術的な問題を解決した点で,学術上貢献が大きい.

提案ネットワークトポロジの例
(代表的な通信リンクのみ記載)
(代表的な通信リンクのみ記載)
(2018年5月7日受付)