5M-04
強化学習と満足化による素早い行動系列の獲得
○牛田有哉,甲野 佑,高橋達二(電機大)
未知の環境において複数の行動選択肢の中から最適なものをなるべく早く見つけ出すバンディット問題に対し,人間の認知に範を得た満足化価値関数RSは,ある満足化基準を満たす選択肢を素早く見つけ出すことが示されている.本研究ではこれを強化学習全般に拡張し,より少ない試行錯誤による適切な行動系列・方策の獲得を目指す.これまでRSが対象とする個々の状態行動価値はスケールが異なり,本来評価すべき方策の満足性の度合いを個別の状態に対して適用することができなかった.本研究では方策に対する基準概念を新たに設け,それを個別状態の基準値に変換する仕組みを考案した.これによる短期・長期の行動評価を統合した満足化の成功に関する検証を行った.

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会