5J-01
継続学習を用いた効率の良いマルチリンガル・マルチエキスパートモデルの開発
○中村泰士,横田理央(東工大)
近年、OpenAIのGPT-4をはじめとする大規模言語モデルの開発が世界中で行われている。これらのモデルは、様々なタスクを解くことができるため注目されている。BLOOMのような多言語モデルの開発も進められている一方、効率的に複数の言語および複数のタスクに対応するモデルの開発は依然として課題が多く残されている。本研究では、主に英語とコードで学習されたstarcoderplusモデルを基に、日本語、英語、フィンランド語、ベトナム語、ヒンディー語、コードを用いて継続学習を行い、多言語対応および複数のエキスパートモデルを開発した。本論文では、継続学習のプロセス、そして多言語および多分野での性能評価について詳細に論じる。