情報処理学会第88回全国大会

本研究では，「大貧民」を対象に，PolicyとValueの2つのヘッドを持つニューラルネットワーク評価関数の構築手法を検討する．「大貧民」の確率的要素と不完全情報の性質から，単純な強化学習では学習がなかなか進まない問題がある．そこで，提案手法では，既存の強いプレイヤからの教師あり学習と，自己対戦による強化学習との2段階で学習を行う．また，多人数という性質から，モンテカルロ木探索の適用が困難である．そこで，提案手法では，PolicyとValueを組み合わせた評価値を導入することで，軽量に提出手を決定する．学習速度および作成されたプレイヤの強さの観点で，提案手法の有効性を検討する．