6Q-06
強化学習による事前知識なしのリバーシ盤面価値評価関数の学習
○山本将也,藤田 悟(法大)
リバーシ、将棋、囲碁などのボードゲームは、手の分岐により指数関数的にパターンが増大するため、現代のコンピュータの計算速度では全探索することが不可能である。人間によるプレイデータを用いる方法も存在しているが、それらの手が「最善」である確証はなく、あくまで経験則に基づくものである。本研究では、定石やプロの棋譜データベースなどの情報を直接用いることはせず、乱数で生成した手から機械学習を用いて有利な手を抽出することにより、強いエージェントを実現することを目的とする。リバーシゲームにおいて、Deep Q-Networkをベースとした手法により自己対局データから構築した盤面価値評価関数の有用性を確認できた。