4V-05
Attention層の量子化とMasked Attentionの適用による大規模言語モデルの省電力化
○福永 大,内田真人(早大)
大規模言語モデル(Large Language Models、LLMs)が広く普及する中、LMMsが引き起こす環境問題への懸念が広がっている。LMMsの開発運用には、大量の電力が必要となる。特に、LMMsの運用は長期に渡るものであり、推論時の計算量削減は必要不可欠である。本研究では、Attention層の量子化を自己教師あり学習を用いて実現した。また、量子化する際にガウスカーネルを用いることでsoftmaxの計算を省略し、さらにはMasked Attentionの適応を可能にしてLLMsの計算に対して最適化した。その結果、性能低下を抑えつつAttention層の量子化を可能にした。