6Q-07
COMAアルゴリズムによるサッカーゲームの戦略的行動学習
○永井宏樹,伊藤克亘(法大)
強化学習とはエージェントと言われる学習者の行動を評価できる環境で、報酬が最大となるように試行錯誤しながら行動し最適な行動を学習する人工知能の機械学習手法の 1 つである。
本研究では、Google Research Footballのフルゲームサッカーシミュレーション環境において、マルチエージェントシステムの文脈で強化学習を適用し、エージェントの勝率向上を目指す。
特に、相互作用が重要な役割を果たすこの環境において、Counterfactual Multi-Agent Policy Gradients(COMA)アルゴリズムを用いることで、個々のエージェントが集中型Criticを利用し、他エージェントの行動を考慮した最適な行動選択を学習を行う。
実験は、異なる難易度を持つFootBall Benchmarksを用いて行い、勝率を主要な評価指標とする。