4R-06
マルチモーダルモデルと内発的報酬を用いて探索を強化した世界モデル
○深谷拓実,穴田 一(東京都市大)
世界モデル等のモデルベースの深層強化アルゴリズムは,環境モデルを再現し活用する事によってモデルフリーアルゴリズムより高いサンプル効率で学習できる.しかし,ランダムな行動で報酬に到達しにくい報酬が疎な環境の場合に世界モデルは報酬を再現できず,高いサンプル効率を実現できない.そこで本研究では,環境内の探索を強化し確実に報酬に到達するために,学習済みマルチモーダルモデルによる事前知識と内発的報酬による探索の強化によって,報酬が疎な環境でも世界モデルがこれまでのアルゴリズムより高いサンプル効率を実現できることを示す.