6P-6
人間認知の適応特性を実装した価値関数とその囲碁AIへの応用
○西村友伸,大用庫智,高橋達二(電機大)
本研究では人間認知の適応的特性の大規模コンピューティングへの適用例として、ヒトの認知バイアス(対称性・相互排他性)を持つ行動価値関数、 Kohno & Takahashi (2012) が提案したLSVR (loosely symmetric model with variable reference) モデルを用い、モンテカルロ木探索の評価値として実装し、囲碁AIでのゲーム木探索を通して効果を確認した。同様の行動価値関数としては期待損失の限界に保証を持つUCB1が有名だが、LSVRがUCB1と比較して、サンプリング回数が少ない時、また探索の幅が非常に広い時に、より良い性能をもたらすことを示す。更に、LSVRとUCB1の両者を使い分けるハイブリッドモデルについても検証し、その効果も確認した。

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について