3P-06
大貧民におけるシミュレーション・バランシングを用いた方策学習
○飯田伸也,藤田 悟(法大)
ゲームにおける機械学習の研究において複数回の乱数シミュレーションを用いるモンテカルロ法についての研究が盛んに行われている。しかし、モンテカルロ法は乱数で相手の手を決定するため、相手の悪手に依存していまい、良い結果が得られない。この解決策として、本研究では、シミュレーション・バランシングという技術を用いてモンテカルロ法の改善を試みた。シミュレーション・バランシングとはある局面の重みを学習によって求めて、その求めた重みで手を決定するという手法である。
 本研究では大貧民に対してのシミュレーション・バランシングを用いた様々状況での重みの特徴を分析した。

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について