3P-03
満足化価値関数を用いて自律的に探索する強化学習手法
○牛田有哉,甲野 佑,高橋達二(電機大)
我々が対応すべき現実の環境とは非常に複雑で把握しきれないものである.ゆえに現実的な時間内では学習し続けながら生存のために獲得可能な利得を増やしていかなければならない.しかし学習のための試行錯誤にコストを割けば,生存のための短期的な利得が損なわれてしまう.このような問題に対して,人間は学習をし続けながらも環境の非定常性や複雑性と上手く折り合いをつけて生活している.これは人間が満足化と呼ばれる利得の最大化(最適化)とは異なるルールによって試行錯誤しているからであるとされる.
本研究では満足化を応用した価値関数を導入し,自律的に試行錯誤(探索)の割合を調整する強化学習手法を考案して既存手法と比較する.

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会