2Q-01
合目的強化学習における希求水準変換の再検討
○有村柊一,甲野 佑,高橋達二(電機大)
人間は目標である希求水準を定めることで探索と活用のバランスをとり, 目標を満たす行動を効率的に学習する. この意思決定傾向を強化学習での探索手法として応用したのが Risk-sensitive Satisficing(RS)である. RSは, 大局的な希求水準を状態ごとの希求水準へと変換するGlobal Reference Conversion(GRC)によって, 各状態への希求水準を事前に与えずに目標を達成できる. しかし現在, この変換で必要な収益と行動価値のスケーリングパラメータを求める手法が存在しない. 今回我々は, この問題を抱えるGRCについて再検討を行い, 改善案を提案する.