7P-06
RoboCupサッカーシミュレーション2Dリーグにおけるニューラルネットワークを用いた評価関数の模倣学習
RoboCupサッカーシミュレーション2dリーグのサンプルプログラムagent2dでは、攻撃時のボール保持者の行動決定に「チェーンアクション」という方法が採用されている。チェーンアクションでは、局面の優劣を評価して行動を決定する。本研究では、チェーンアクション内で使用する評価関数をニューラルネットワークで近似し,学習することを試みた。学習では、ある報酬を仮定し、強豪チームの行動決定方法(方策)に基づく状態価値関数を、強化学習の手法を用いて試合ログから計算した。その結果、学習前のニューラルネットワークを用いたチームより対agent2dでの勝率が向上した。