情報処理学会 第82回全国大会 会期:2020年3月5日~7日 会場:金沢工業大学 扇が丘キャンパス 情報処理学会 第82回全国大会 会期:2020年3月5日~7日 会場:金沢工業大学 扇が丘キャンパス

4U-05
弱教示的強化学習における探索割合の自律調整
○佐鳥玖仁朗,神谷 匠,高橋達二(電機大)
強化学習には環境の探索と知識活用のトレードオフが存在する.その自律的調整を行う手法として,人間の認知的性質を用いたリスク考慮を行う満足化価値関数(RS)が提案された.RSは評価を非満足(不正解)と満足(正解)として教示的に変換するため,弱教示的に学習する.また,RSはバンディット問題においてその最適性が証明されており,最近ではRSの強化学習への汎化手法として大局基準変換法(GRC)が考案されている.しかし,GRCには方策の探索性を司るハイパーパラメータ ζ があり,その調整は難しい.そこで本研究では ζ を必要としないGRCrを提案する.また実験を通して強化学習タスクへの広い適用可能性を示す.