5A-01
分散深層学習のためのワイヤースピードでのIn-Network Computingの検討
○田仲顕至,有川勇輝,川合健治,加藤順一,伊藤 猛,ゴー ヒュークー,森田和孝,三浦史光,坂本 健,重松智志(NTT)
データ並列分散深層学習では、複数のワーカーノードで計算された勾配情報を集約・共有するために、Allreduceが行われる。この時、勾配情報のメッセージサイズは100KB以上と大きく、Allreduceのレイテンシが分散深層学習高速化のボトルネックとなることが知られている。本研究では、この集団通信のレイテンシを短縮するために、Allreduceに特化したデータフローアーキテクチャを提案する。実験結果より、提案手法がワイヤスピード(10 Gbps)の96%でAllreduceを実行可能であることが示された。さらに、提案手法は、既存のハードウェア実装によるAllreduceの高速化手法と比べ、ResNet-50と同等のメッセージサイズのデータをAllreduceする時に生じるレイテンシを65%短縮した。

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会