情報処理学会第88回全国大会

大規模言語モデル（LLM）の普及に伴い，LLMの学習や推論の高速化に不可欠なGPUの需要が急激に増加している．これにより，GPUの調達や運用にかかる費用が増大し，研究機関や企業の財政的負担が深刻化している．そのため，限られたリソースで性能を最大化することが課題の一つとなっている．そこで，本研究ではLLM推論フレームワークであるvLLMを用いて，GPUリソースを制限することによる推論性能への影響を調査した．その結果，GPUリソース量と推論性能は必ずしも比例関係にあるとは言えず，一定量GPUリソースを制限した状態でも高いスループットを実現できるということが明らかとなった．