抄録
F-022
ニューラルネットワークを用いた囲碁のための効率的な強化学習手法
武田敦志(東北学院大)
2017年に発表されたAlphaGo Zeroにより、ニューラルネットワークと強化学習を用いることで、過去の棋譜を使わなくてもプロ棋士と同等以上の強さを有するコンピュータ囲碁のプログラムを実現できることが明らかとなった。一方、AlphaGo Zeroの学習処理を実行するためには膨大な量の計算機資源が必要となる。そこで、本発表では、コンピュータ囲碁のプログラムを実現するための効率的な強化学習手法を提案する。提案手法では、自己対局における候補手を評価するために領域予測ニューラルネットワークを用いる。これにより、強化学習のための棋譜をAlphaGo Zeroよりも少ない計算機資源で生成できる。