5Q-6
強化学習における政策再利用転移学習
○吉田慎二,長谷川修(東工大)
強化学習による最適な政策の学習には、膨大な時間が要求される。
この問題に対し、強化学習における転移学習の手法が様々にが提案され、
成果を上げている。本研究においても、過去に学習したタスクの
知識を用いて、新たなタスクを効率的に学習する手法を提案する。
本研究では、過去のタスクから学習した政策を、新たなタスクを
探索する際のバイアスとして用いる。エージェントは、
(1)現在学習中の政策に従い行動する(2)ランダムに探索する
(3)過去の政策に従い行動する、の3つのいずれかに従って
行動を決定し、学習を行う。この過去の政策の重みを、
過去のタスクにおけるQ-valueを利用し制御する。実験により、
提案手法の学習効率が従来手法よりも上回ることを示した。