3T-3
非マルコフ的な方策と報酬による方策勾配法の適用例:経路計画問題
○松尾雅樹,五十嵐治一(芝浦工大),石原聖司(近畿大)
 強化学習では, 環境のマルコフ性を仮定した価値ベースの手法が
一般的である.また, 強化学習が扱う問題にはエージェントの行動
決定に有用な知識(ヒューリスティクス)が存在する場合が多いが,
価値ベースの手法でこれを方策中に積極的に利用した方法は提案さ
れていない. 一方, 環境のマルコフ性を要求しない方策ベースの手
法として知られる方策勾配法は, ヒューリスティクスのような知識
を方策中に表現することが容易である.
 本論文では, 非マルコフ的な報酬が与えられる環境下でも, 方策
勾配法においてヒューリスティクスを利用することで適切な学習が
可能となることを示す.