情報処理学会第88回全国大会

大規模言語モデルは論理推論を行うことで性能が向上し、大規模推論モデルとして発展している。これらのモデルは強化学習により論理推論能力を獲得するが、出力トークン数が長くなり計算コストが増大する問題が生じる。本研究では、推論能力を維持しながら出力を簡潔化する手法を提案する。具体的には、強化学習手法であるGRPOアルゴリズムにおけるLLMの損失関数を改良することで、学習中に出力の簡潔性を促進する。主に数学的推論タスクでの実験により、提案手法が推論精度を保ちながら出力長を削減することを示す。