Techniques to Reduce the Overhead and to Improve the Robustness in a Fault Tolerable Reconfigurable Architecture

(邦訳:再構成可能アーキテクチャのための低オーバーヘッド高信頼化手法)
 
Tanvir Ahmed(タンビア・アーメド)
東京工業大学 ポスドク研究員

[背景]半導体微細化によるデバイスのばらつき増大
[問題]高信頼化のために完全三重化するのは電力効率が悪い
[貢献]信頼性と電力効率のトレードオフを実現


 近年,半導体微細化の一段の進歩やポストシリコン開発の進展等に伴い,不安定なデバイスを利用してどのように実用的システムを構築するかに関する研究が盛んに行われている.また,このような信頼度向上の必要性は,多数の演算器を搭載するアクセラレータにおいて特に強い.一般的には,論理回路の多重化および多数決論理によって回路の信頼度を高めることができる.しかし,面積増加による歩留り低下や消費電力の急激な増大を伴うことから,元々多数の演算器を有する構成に対して単純な多重化を適用することは難しい.以上の背景から,多数の演算器を有するアクセラレータにおいて,いかに面積増加や消費電力増大を抑制しつつ,信頼性を向上させるかが重要な課題となってきている.最近の学会では,アプロキシメイトコンピューティングと呼ばれる,厳密ではない計算手法が注目されている.この考え方と,信頼性保証の考え方を融合すると,ループの制御に関する重要な計算と,多少のエラーを許容する画素値計算等をあらかじめ区別し,前者のみを冗長化し保証することにより,全体として高信頼化のコストを抑制できると考えられる.本論文は,多数の演算器を利用するリコンフィギャラブルアーキテクチャに適用できる,(1)演算種別に応じてエラー発生確率が高い個所を特定し,データパスを選択的に検査する機構,および,(2)テスト演算を挿入してエラーをモニタリングすることによりSDC(Silent Data Corruption)予測を行い冗長度を変化させる部分冗長化機構の2つを提案している.得られた主要な成果は以下のとおりである.

【1】演算種別(関与するゲート数)に依存して決定されるODP(Operation Defective Probability)の値を用いて,リコンフィギャラブルアーキテクチャに写像した二重化演算の結果を比較する検査命令を効率よく挿入する手法を考案した.また,ODP算出にあたっては,有効ビット数の少ない定数演算を考慮することが重要であることを明らかにした.

【2】評価の結果,故障の発生確率が高い部分に集中的に検査命令を挿入し,全部を検査する場合に比べて,60%の検査命令が削減できることを明らかにした.また.これにより,22%の電力削減が可能であることを示した.

【3】未使用演算器を利用してSDC(Silent Data Corruption)をモニタリングする演算を行わせ,次のイタレーション実行時のSDC発生確率を予測し,予測値に応じた冗長化を適用する手法を考案した.

【4】評価の結果,演算器使用率を8%増加させるだけで,SDC発生確率を12%から0.37%に削減できることを示した.
 

 (2014年5月30日受付)
取得年月日:2014年3月
学位種別:博士(工学)
大学:奈良先端科学技術大学院大学



推薦文
:(計算機アーキテクチャ研究会)


多数の演算器を利用するリコンフィギャラブルアーキテクチャに適用可能な,エラー発生確率が高い個所を特定しデータパスを選択的に検査する部分冗長化機構,および,SDC(Silent Data Corruption)予測に基づく部分冗長化機構は,とてもユニークである.特に後者は,Impact Factor 1.4のIEEE Transactions on Nuclear Scienceに採択されており,推薦博士論文として相応しい.


著者からの一言


奈良先端大では,中島教授および姚准教授に大変お世話になりました.部分冗長化という面白いテーマをいただき,こうして博士号を取得できました.現在,東工大ポスドク研究員として引き続き研究に励んでおります.これからも,世界の計算機アーキテクチャの発展に貢献したいと思います.よろしくお願いします.