抄録
B-005
自然勾配近似法を用いた大規模並列深層学習におけるハイパーパラメータ最適化
長沼大樹・岩瀬 駿・郭 林昇・中田 光・横田理央(東工大)
深層学習では極めて冗長な数のパラメータを持つDNNを膨大な学習データを用いて学習することで他の機械学習手法を圧倒する高い性能を発揮している。
一方で,DNNの学習には膨大な計算時間がかかるため、大規模並列化によって学習時間を短縮するのが喫緊の課題である。
深層学習で従来用いられてきた確率的勾配降下法(SGD)では、大規模並列化に伴うバッチサイズの増加により汎化性能が劣化することが報告されている。
Martensらによる自然勾配法を近似した手法であるK-FACでは、バッチサイズの増加が汎化性能に影響しないことが示されている。
大規模並列学習において、SGDとK-FACを用いた場合の学習速度や収束速度をそれぞれの最高性能で比較するため、依存するハイパーパラメータの最適化を行い比較検討を行なった。