情報処理学会 第87回全国大会

1U-06
非定常なGaussianバンディット問題における目標志向探索
○川又陸斗,小河将真,高橋達二,甲野 佑(電機大)
人間が目標達成に向けて試行錯誤する過程では,時間とともに変化する環境の影響を受けながら,状況に応じて行動を学習する.新たな環境への適応には,過去の情報を捨てつつ意思決定を行う必要があり,環境の変動に迅速に対応する柔軟性が求められる.このような人間の意思決定傾向を探索に取り入れたのがRisk-sensitive Satisficing (RS) で,希求水準という目標の達成を重視する強化学習のアルゴリズムである.本研究では,環境の変動を反映させるため,連続的な報酬を用いた多腕バンディット問題に,忘却率付きの更新を導入し,非定常環境下での有用性を示す.