2C-05
不完全情報展開型ゲームの求解における利得摂動に関する研究
○眞坂航宙(電通大),坂本充生,阿部拳之,蟻生開人(サイバーエージェント),岩崎 敦(電通大)
不完全情報展開型ゲームでは,プレイヤは観測できない情報を考慮しながら確率的な行動を選択する必要があり,学習は困難を伴う.ゲームの求解にはFTRLアルゴリズムが用いられるが,FTRLでは得られる戦略が解に直接収束しない,という課題がある.そのため利得に適切な摂動を加えて直接戦略を解へ近づける手法が近年研究されている.各反復で全履歴を考慮する代わりに一部の履歴をサンプルし学習する場合,期待利得の推定が必要となる.そこで本研究ではこの分散を低減させる利得の摂動方法を提案する.既存手法と比較をし効率的な学習を可能にする摂動手法を探り,計算機実験により提案手法が特定のゲームで既存手法を上回ることを示す.