2R-04
Half Field Offenseにおける探索ボーナス生成手法の検討
近年,RoboCup 2Dサッカーシミュレーションのサブタスクで強化学習問題として用いられているHalf Field Offense (HFO)へ強化学習法を適用する研究がされている.HFOへ強化学習法を適用する問題点として,複雑なタスクで効果的な報酬を設計する難しさが挙げられる.HFOにおいてエージェントがゴールを達成した時にのみ得られるような報酬であれば設計を必要としない.しかしながら,従来の強化学習法のみではゴールすることが困難であり,報酬を得ることができないため学習が進まない.本研究では,既存の探索ボーナス生成手法とパラメータ化された行動に適応した深層強化学習法を組み合わせ,報酬別の実験によってHFOにおける探索ボーナス生成手法の有効性を検討した.