情報処理学会 第88回全国大会

1K-03
vLLMでGPUリソースを制限した場合の推論性能評価
○髙頭まどか(お茶の水女子大),平井 聡,木下怜佳,三輪真弘(富士通),小口正人(お茶の水女子大)
大規模言語モデル(LLM)の普及に伴い,LLMの学習や推論の高速化に不可欠なGPUの需要が急激に増加している.これにより,GPUの調達や運用にかかる費用が増大し,研究機関や企業の財政的負担が深刻化している.そのため,限られたリソースで性能を最大化することが課題の一つとなっている.そこで,本研究ではLLM推論フレームワークであるvLLMを用いて,GPUリソースを制限することによる推論性能への影響を調査した.その結果,GPUリソース量と推論性能は必ずしも比例関係にあるとは言えず,一定量GPUリソースを制限した状態でも高いスループットを実現できるということが明らかとなった.