5C-3
周期的環境に対するフーリエ混合強化学習法
○野田五十樹(産総研)
周期的に報酬が変化する環境に対し、その変化を組み込んだ期待報酬を獲得す
る強化学習の手法を提案する。従来の強化学習ではある状態-行動対に対する報
酬は一定である仮定がおかれているが、実環境では報酬が周期的に変化する場
合も考えられる。これに対応するため、有限のフーリエ係数の形式で期待報酬
を表現し、また学習方法を与える。さらにいくつかの簡単な問題に対し、提案
手法が適切に学習を行ない、報酬の周期にあわせて同じ状態において最適行動
を切り替える学習が行なえることを示す。