情報処理学会 第86回全国大会 会期:2024年3月15日~17日

5J-02
大規模言語モデルの分散並列学習
○藤井一喜,横田理央(東工大)
大規模言語モデルは数多くの自然言語処理タスクにおいて非常に高い性能を示している。しかし大規模言語モデルを学習することはGPUメモリ制約から1ノードでは困難である。そのため複数ノードでの分散並列学習が必須であり、データ並列、パイプライン並列、テンソル並列を用いた3D Parallelismを用いて効率的に学習を行う必要がある。本論文では、言語モデルを効率的に学習するための分散並列学習の実例を示す。