6W-09
SNDを用いた内部報酬の導入によるモンテカルロ木探索の効率化
○岡田晃汰,長名優子(東京工科大)
MuZeroはモンテカルロ木探索に深層学習を導入した手法であり、CNNを導入する
ことにより囲碁や将棋だけでなくビデオゲームにも対応することができる。し
かし、MuZeroには報酬が疎な環境や訓練データが少ない場合に適切に学習が行
えないという問題がある。これに対して、EfficientZeroは、自己教師あり学習
の考え方を導入することで、訓練データが少ない場合にも適切に学習が行える
という特徴がある。また、内発的動機付けによって、エージェントはより未知
の状態を探索するようになり、報酬を獲得する機会が増えるため、MuZeroに
Random Network Distillationを用いた内部報酬を導入することで報酬が疎な環
境においても早い段階で学習が進行することが明らかになっている。本研究で
はRNDの問題点である時間の経過に伴い未知の状態に対しても内部報酬が消失す
ることを解決したSelf-supervised Network Distillation (SND)を用いた内部
報酬の導入による探索の効率化を提案する。