A study on learning algorithms of value and policy functions in Hex

（邦訳：Hexを用いた局面評価関数とポリシー関数の学習アルゴリズムに関する研究）

高田圭
ヤフー（株）

キーワード

深層学習強化学習ボードゲーム

［背景］膨大な探索空間から最良な行動を決定するためには状態と行動の評価が必要

［問題］状態と行動を評価する評価関数の作成が困難
［貢献］高精度な評価関数を作成する学習アルゴリズムを提案

ボードゲームをプレイするコンピュータプレイヤの開発に関する研究は，ゲーム情報学と呼ばれる研究分野に分類される研究です．ゲーム情報学では，様々なゲームを対象に探索手法，データベース，機械学習，心理学など幅広い分野にまたがって研究が行われています．その中でも，人間を超えるコンピュータプレイヤを開発することはグランドチャレンジの1つとして捉えられ，強いコンピュータプレイヤを開発するための研究が数多く行われています．優れたコンピュータプレイヤを開発するためには，現在の局面から起こり得る全局面という膨大な探索空間から，コンピュータプレイヤにとって最良な手を効率的に探索する手法が必要となります．こういった手法の開発過程で得られる探索アルゴリズムや機械学習アルゴリズムは，人工知能の分野等への応用が期待されています．

本研究では，Hexと呼ばれるボードゲームを対象に，より強いコンピュータプレイヤを開発するための機械学習アルゴリズムの提案を行いました．Hexは数学者のPiet HeinやJohn Nashらに開発された二人用ボードゲームであり，チェスや将棋や囲碁と同様に二人零和有限確定完全情報ゲームに分類されるボードゲームです．二人用ボードゲームをプレイするコンピュータプレイヤを開発するためには，現在の局面の形勢を定量化する局面評価関数と候補手の有望性を定量化するポリシー関数が必要となります．そして，高精度な2つの評価関数を使用することで，より良い手を探索することが可能になり，より強いコンピュータプレイヤの開発に繋がります．先行研究では，高精度な評価関数を作成するために，人間のプロ棋士の手を打つように評価関数を学習させる機械学習アルゴリズムや，自己対戦を通した強化学習アルゴリズムなどが提案されてきました．特に，自己対戦を利用した強化学習アルゴリズムは人間のプロ棋士を超えるコンピュータプレイヤの開発に繋がると期待され，近年では強化学習アルゴリズムによって作成されたコンピュータプレイヤが囲碁のトッププロ棋士を破っています．一方で，人間のトッププロ棋士に勝つレベルのコンピュータプレイヤを開発するためには，非常に大きな計算リソースが必要となることが知られています．そこで，私は従来手法に比べ低コストで高精度な評価関数を作成し得る手法であり，自己対戦を通して局面評価関数とポリシー関数を作成する強化学習アルゴリズムを提案しました．既存のコンピュータプレイヤや，他の学習アルゴリズムとの比較を通して，提案手法によって高精度な局面評価関数とポリシー関数が作成可能であることを示しました．

（2019年5月31日受付）

取得年月日：2019年3月
学位種別：博士（情報科学）
大学：北海道大学

推薦文：（ゲーム情報学研究会）

Hexと呼ばれる二人対戦型ボードゲームにおいて，膨大な自己対戦の結果から，深層畳み込みニューラルネットワークによって，ある局面でどの手が有望かを予測するポリシー関数と局面の優劣を予測する局面評価関数を同時に学習する新しい手法を提案し，これまでのプログラムより有意に強いことを示した論文である．

研究生活：

私は，学部3年生のときに最適化や機械学習に興味を持ち，それらの分野で研究を行っている研究室に入りました．研究室配属後，指導教官から勉強ついでにボードゲームのコンピュータプレイヤを開発することを勧められ，それがきっかけでこの研究をはじめました．研究生活の中で私が苦労したことは，研究に対するモチベーションの維持でした．好きな研究ではありましたが，数年間同じテーマの研究をしていると研究に対して気持ちが抜けてしまう時期がありました．そこで，モチベーションを高めようと思い，同じ分野で研究をしている海外の大学へ短期留学を行いました．非常に刺激的で有意義な留学となり，結果的にこの留学が博士課程の修了に繋がったと感じています．これから博士課程に進学する人も，研究意欲が低下してしまったときには，研究環境を変えてみると研究意欲が高まるかもしれないので，留学等を活用することをお勧めします．

2018年度へ戻る

このページの先頭へ