情報処理学会 第87回全国大会

5W-07
深層強化学習による価値関数ベース目標志向探索
○久米 淳,高橋達二,甲野 佑(電機大)
人間の学習能力は,目標設定や柔軟な意思決定による効率的な探索行動に支えられている.この目標設定は,自己や他者から与えられる達成すべき基準に基づき,現状の評価を可能にし,半教示的な学習を促進する.本研究では,このような人間の Target-Oriented Exploration を強化学習として応用したのが Risk-sensitive Satisficing (RS) である.さらに,この RS を深層強化学習に適用した Regional Stochastic Risk-satisficing (RS²) を提案し,Atari ゲームにおけるシミュレーションを通じてその有用性を実証した.