6Q-03
オフラインデータを利用した意味的探索による世界モデルのサンプル効率の改善
○立松健輔,綱島秀樹,森島繁生(早大)
深層強化学習手法は多くの困難な環境で成功を収めている.一方で,高い性能を発揮するには環境との膨大な相互作用を必要とするという問題が存在する.そこで本研究では,モデルベース強化学習の1つである世界モデルにおいて,人間が事前に用意したオフラインデータを利用し,エージェントによる環境の探索を改善する新たな学習法を提案する.オフラインデータから模倣学習した方策を用いて環境の探索を行うことで,環境とのインタラクションを少なくモデル化するための経験を獲得する.また,模倣学習で獲得した方策において主成分分析を行い,いくつかの主成分にノイズを付加することによって意味のある探索につながるかを調査した.