3C-3
コンピュータ将棋へのTD(λ)法の適用:Bonanzaの評価関数パラメータ値
○五十嵐治一,山本一将(芝浦工大)
コンピュータ将棋の評価関数の自動学習に関しては,強化学習の一種であるTD(λ)法を
用いた試みがなされてきた.TD(λ)法はバックギャモンでは大成功を収めたが,将棋では
それほど良い結果は報告されていない.我々は,この原因として,評価関数中のパラメー
タが多い(例,Bonanza ver.4.1.3では約9000万個)ため,全くのゼロの状態から強化
学習を適用させて適切なパラメータ値を得るのは,計算量の点から難しいのではないかと考
えた.そこで,すでに公開されているBonanzaのパラメータ値を初期値として,TD(λ)に
より評価関数のパラメータ値を強化することを試みた.今回は対戦相手をBonanzaに固定
した学習実験の結果を報告する.