5K-04
Xeon 6上でのFP16 SIMD演算を用いたStable Diffusionの推論高速化
○松山竜也,吉田明正(明大)
近年,Stable Diffusionに代表される画像生成AIにおいてはGPUが広く用いられているが,GPUを持たないエッジデバイスや低消費電力環境においては,SIMD演算を伴うマルチコアCPUによる高速処理が期待されている.本研究では,Stable DiffusionのC++コードにおいて,FP32ではなくFP16データを活用し,AVX-512 Intrinsicsによる実装し,OpenMPによるスレッド並列処理と組み合わせて高速化を実現する.Intel Xeon 6 6740pの48コア上で行った性能評価の結果,FP16を伴う提案手法は,スレッド並列性とSIMD並列性を利用して,実行時間を大幅に短縮しており,提案手法の有効性が確認された.