5Q-2
Profit Sharingによる強化学習における報酬の分配方法に関する提案
○竹内 翔,仲道俊介,原田 拓(東理大)
強化学習アルゴリズムの1つであるProfit Sharingは,部分観測マルコフ決定過程の環境においても学習性能が良いなど,その有効性が評価されている.
Profit Sharingにおいて,報酬を分配する際に重要なパラメータとして割引率がある.
多くの研究では,この割引率の値は設計者自身が定めている.
これに対して,本研究では,この割引率の値を学習過程において変動させる方法を提案する.
提案する方法では,最適化問題に対する近似解法を適用することによって割引率の値を設定する.
そして,実験を行うことによって,提案方法の有効性を検証する.