情報処理学会第84回全国大会講演論文集

5Q-06

Vision Transformerにおけるバッチサイズの汎化性能への影響

○中村秋海，横田理央（東工大）

画像認識の分野では，近年データセットやモデルが巨大化しているため訓練にかかる時間も増大している．データ並列学習では，訓練データをプロセスに分散し，その勾配をプロセス間で通信することで学習を高速化できる．ただし，プロセス数に比例して全体のバッチサイズが上昇するという問題がある．これまでに，CNNでバッチサイズの増大と汎化性能に関する研究はなされているが、Vision Transformer （ViT）におけるバッチサイズの増大の影響を調べた例は少ない．そこで，本研究ではViTにおけるバッチサイズの汎化性能への影響を広範なハイパーパラメータにおいて調査した．