情報処理学会第85回全国大会 会期:2023年3月2日~4日 会場:電気通信大学

5W-01
MuZeroへの内部報酬の導入による探索の効率化
○野村隆浩,長名優子(東京工科大)
Alpha Goでは、ゲーム木探索としてモンテカルロ木探索を行い、そ
の結果を学習することで囲碁の対戦でプロ棋士に勝利することに成
功している。さらに、Alpha Goの後継手法であるAlpha Zeroに深層
学習を導入することで、囲碁などのボードゲームだけでなくビデオ
ゲームにも対応したMuZeroが提案されている。一方で、Deep Q-Ne
tworkを改良したNGU(Never Give Up)では、学習時に同じ状態を何度
も訪れにくくなるように内部報酬を導入することで、より様々な状
態への探索が促され、深層強化学習の課題であった報酬が疎な環境
においても早い段階で学習を進行させることを可能にしている。
そこで、本研究では、MuZeroにNGUで提案された内部報酬の考え方を
導入することで探索の効率化を行い、報酬が疎な環境においても早
い段階で学習を進められるようにすることを目指す。