2X-03
大貧民におけるポリシー・バリューネットワーク評価関数の学習法と利用法の検討
○福澤詩音,松崎公紀(高知工科大)
本研究では,「大貧民」を対象に,PolicyとValueの2つのヘッドを持つニューラルネットワーク評価関数の構築手法を検討する.「大貧民」の確率的要素と不完全情報の性質から,単純な強化学習では学習がなかなか進まない問題がある.そこで,提案手法では,既存の強いプレイヤからの教師あり学習と,自己対戦による強化学習との2段階で学習を行う.また,多人数という性質から,モンテカルロ木探索の適用が困難である.そこで,提案手法では,PolicyとValueを組み合わせた評価値を導入することで,軽量に提出手を決定する.学習速度および作成されたプレイヤの強さの観点で,提案手法の有効性を検討する.