FIT2016 第15回情報科学技術フォーラム 開催日:2016年9月7日(水)~9日(金) 会場:富山大学キャンパス
抄録
F-029
Contextual Multi-armed Banditの運転管理問題への適用性評価
秋山高行・Phong Nguyen・大橋洋輝(日立)
運転管理問題にContextual Multi-armed Bandit Algorithmを適用した結果を報告する.従来では,行動価値が一つの基準で定まる環境が主な対象であるが,本研究では,複数の評価基準を持つ環境を取り扱う.変動する需要を満たす行動選択の問題として一般化し,複数の評価基準を含む報酬信号を設計した.行動選択手法に未知の行動を確率的に選択するUCB(Upper Confidence Bound)アルゴリズムを導入,さらに現在の状況(context)を考慮することで,現状に応じた最適な行動を探索的に学習する.検証には,ATM内の現金管理問題を取り上げ,入出金需要が変動する環境において適用性を評価し,適切な運転管理行動を獲得することを確認した.また,評価基準の設定による行動獲得の依存性についても確認した.