抄録
F-032
レシーバの行動決定モデルを利用したスルーパスの強化学習
山岸 準・五十嵐治一(芝浦工大)
Robocupサッカーシミュレーション2Dリーグではプレイヤエージェントは探索木と評価関数を用いてドリブルやパスなどの行動決定を行っている。本研究では、相手の行動評価を考慮する相互作用の項を評価関数に導入し協調行動を促進させることを試みた。さらに、人間の主観評価による報酬を用いて強化学習を行い、評価関数の重みを学習した。3人の被験者により強化学習を行った結果、ある被験者ではスルーパスが増加し、別の被験者ではゴール前のパス回しが強化された。agent2dと呼ばれるオープンソースのチームに対するが勝率も40.5%から66.0%まで向上させることができた。