情報処理学会第88回全国大会

エージェントへの報酬値を決定する報酬関数は，強化学習エージェントのパフォーマンスに大きな影響を与える要素である．しかし，強化学習における報酬関数設計は非常に困難であり，複雑なタスクにおいて，高性能な報酬関数の設計は大量の手動による試行錯誤を必要とする．この課題に対処するため，本研究では大規模言語モデルと進化的アルゴリズムを組み合わせた報酬関数生成フレームワークを提案する．事前学習なしの条件下でMineDojoタスクを用いた実験の結果，提案手法は従来手法と比較して報酬関数の探索効率の向上が示唆された．本稿ではその詳細を報告するとともに，本手法が複雑なタスクにおける報酬関数設計の自動化に貢献し得ることを示す．