6N-07
大規模言語モデルの構造探索
○岡本拓己,横田理央(東工大)
近年大規模言語モデルは目覚ましい成果を挙げている。しかし、高い性能を達成しているモデルには大量の事前学習データと大きなモデルサイズが用いられている。そのため、事前学習には大量の計算資源が必要である。モデルを変更して、性能を落とさずにパラメータ数やフロップ数を削減することできれば、必要な計算資源を削減することが可能である。剪定、量子化、蒸留などによってモデルサイズを削減する方法が提案されているが、Neural Architecture Searchを利用しているものは少ない。そこで、本論文ではNASを用いて性能をできる限り落とさずにパラメータ数やフロップ数を削減するモデルを探索した。