抄録
CF-005
サブゴールによる内発的報酬を用いたモデルベース深層強化学習の考察
丸山元輝・遠藤聡志・山田孝治(琉球大)
一般的に強化学習は,報酬がスパースな環境で学習が困難であることが知られている.この問題を解決するために,エージェント自らが報酬を生成する内発的報酬を与えて学習する手法が注目されている.そこでタスクを分解して得られたサブゴールに対して内発的報酬を与える方法が考えられる.本研究では先読みとサブゴールの類似度から報酬を生成する方法と,実際にサブゴールに到達した際の報酬の与え方によって学習にどのような影響を及ぼすか考察する.