情報処理学会 第83回全国大会 会期:2021年3月18日~20日 会場:オンライン開催 情報処理学会 第83回全国大会 会期:2021年3月18日~20日 会場:オンライン開催

7P-06
RoboCupサッカーシミュレーション2Dリーグにおけるニューラルネットワークを用いた評価関数の模倣学習
○岡崎弘侑,五十嵐治一(芝浦工大)
RoboCupサッカーシミュレーション2dリーグのサンプルプログラムagent2dでは、攻撃時のボール保持者の行動決定に「チェーンアクション」という方法が採用されている。チェーンアクションでは、局面の優劣を評価して行動を決定する。本研究では、チェーンアクション内で使用する評価関数をニューラルネットワークで近似し,学習することを試みた。学習では、ある報酬を仮定し、強豪チームの行動決定方法(方策)に基づく状態価値関数を、強化学習の手法を用いて試合ログから計算した。その結果、学習前のニューラルネットワークを用いたチームより対agent2dでの勝率が向上した。