2R-08
予算制限多腕バンディット問題の動的報酬への拡張とアルゴリズムの提案
○新美 真,伊藤孝行(名工大)
本研究では,多腕バンディット問題の拡張の一つである予算制限多腕バンディット問題について取り扱う.多腕バンディット問題とは,強化学習における探索と活用のジレンマをモデル化したものである.既存の予算制限多腕バンディット問題の報酬は,静的な確率分布に従う.しかし,実世界の問題では,動的な確率分布であることが想定される.従って,本研究では,予算制限多腕バンディット問題の報酬の確率分布を動的に拡張する.また,既存のバンディットアルゴリズムであるKUBEを拡張したD-KUBE,SW-KUBEを提案する.提案するアルゴリズムにより,報酬の確率分布が動的な問題空間において既存のアルゴリズムと比較し,有意となる結果が得られた.

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について