情報処理学会第82回全国大会講演論文集

4U-05

弱教示的強化学習における探索割合の自律調整

○佐鳥玖仁朗，神谷　匠，高橋達二（電機大）

強化学習には環境の探索と知識活用のトレードオフが存在する．その自律的調整を行う手法として，人間の認知的性質を用いたリスク考慮を行う満足化価値関数（RS）が提案された．RSは評価を非満足（不正解）と満足（正解）として教示的に変換するため，弱教示的に学習する．また，RSはバンディット問題においてその最適性が証明されており，最近ではRSの強化学習への汎化手法として大局基準変換法（GRC）が考案されている．しかし，GRCには方策の探索性を司るハイパーパラメータ ζ があり，その調整は難しい．そこで本研究では ζ を必要としないGRCrを提案する．また実験を通して強化学習タスクへの広い適用可能性を示す．