情報処理学会 第82回全国大会 会期:2020年3月5日~7日 会場:金沢工業大学 扇が丘キャンパス 情報処理学会 第82回全国大会 会期:2020年3月5日~7日 会場:金沢工業大学 扇が丘キャンパス

7A-01
分散深層学習を高速化させるFPGA Ring-Allreduceの検討
○田仲顕至,有川勇輝,伊藤 猛,寺田和彦,森田和孝,三浦史光,寺本純司,坂本 健(NTT)
分散深層学習を短時間に実行するために、各計算機ノードの集団通信をRing-Allreduceで実行する先行事例がある。ただし従来例では、データがGPUまたはCPUに移動するため遅延が発生してしまう。我々は、Ring-Allreduceを実行するFPGA NICを提案する。加えて、通信のオーバーヘッドを最小限に抑えるために、GPU計算時間と通信時間をオーバーラップさせるアルゴリズムの提案、さらに、既存と深層学習フレームワークと異種デバイス制御言語から構成される生産性の高いソフトウェアスタックを提案する。評価結果として、32のバッチサイズで精度を低下させることなく通信オーバーヘッドを84.27%削減できることを確認した。また、4ノード学習システムを使用すると、合計学習時間の7%短縮を実現した。