FIT2015第14回情報科学技術フォーラム 開催日:2015年9月15日(火)~17日(木) 会場:愛媛大学城北キャンパス
抄録
B-011
HPCシステムにおける障害監視および動的再構成機能
齊藤隆之(アンクル)・善甫康成(法大)
HPCシステムは、一般的には多数の計算ノードとストレージデバイスなどから構成される.システムの大規模化に伴い,システム要素における障害の発生あるいは予兆を捉えて,警告すると同時に当該要素を切り離すなどのリアクティブ/プロアクティブな対応が,人的コストとダウンタイムの削減の観点から重要である.我々が開発しているエージェントPULL型の計算資源管理システムShareTaskでは,エージェントによる自律的な情報収集と障害検知ならびに障害箇所の切り離し操作の自動化について取り組んでいる.その実現方法の検討について報告する.