7R-03
報酬獲得を汎化可能とした確率的認知的満足化
人間は目標を定めることで探索と知識利用のバランスをとり,目標を満たす行動系列を効果的に学習できる.この意思決定傾向を満足化と呼び,強化学習での探索手法として応用したのが Risk-sensitive Satisficing (RS) である.また RS を決定論的方策から確率論的方策へと拡張した Stochastic RS (SRS) が提案されており,バンディット問題のような単純な強化学習課題で優れた成績を有している.本研究では SRS をより複雑な環境へ対応するため関数近似に拡張した Linear SRS (LinSRS) を提案し,文脈付きバンディット問題における検証で有用性を示した.