7Q-07
未来考慮型の信頼度に基づく合目的強化学習
○有村柊一,南 朱音,甲野 佑,高橋達二(電機大)
人間は目標を定めることで探索と知識利用のバランスをとり,目標を満たす行動系列を効果的に学習できる.この合目的解を高速に獲得できる意思決定傾向を,強化学習での探索手法として応用したのが Risk-sensitive Satisficing (RS) である.RS は信頼度と, 推定価値と希求水準の差分である主観regretの積で定義される.
しかし強化学習は状態系列を扱うため,状態系列に依存した信頼度を定義する必要がある.今回我々は, 深層強化学習で用いられる経験記憶を利用し現在状態を照合,過去の経験から未来を考慮した信頼度を動的に計算する手法を考案し,性能が向上することを示した.