情報処理学会第85回全国大会

画像認識をはじめとする多分野で活用される深層学習は，精度向上のために大量のデータによる学習やモデルの大規模化が必要とされ，学習時間の長時間化が課題となる．高い並列処理性能を持つGPUは学習の高速化に活用されており，マルチGPUを用いた効率的な並列処理を実現する手法として，学習モデルを分割してGPUに割り当てるモデル並列のアプローチがある．本研究では，代表的な深層学習手法であるCNNに対して，各GPUに複数ステージを割り当てたモデル並列を適用し，マルチGPU環境での高速化を図る．画像分類CNNのマルチGPU向け並列プログラムをCUDAとOpenMPを用いて実装し，NVIDIA Tesla K80搭載サーバ上で性能評価を行い，有効性を確認した．