5R-2
複数の報酬とゲート機構を用いたモジュール型強化学習アルゴリズム
○吉田裕昭,中村真吾,橋本周司(早大)
強化学習を用いて入力数が多く複雑なシステムの最適な制御器を
獲得しようとすると、状態空間が指数関数的に拡大し、
膨大な学習時間が必要となってしまう。この問題の解決策として、
複数の単純な制御器を用意し、系の制御方法を学習する
モジュール型強化学習が提案されている。
しかし、いずれかの制御器を選択するだけの従来手法では、
制御モジュールの組み合わせが生じるような状況に対応することができない。
そこで、本研究では複数の制御器とゲート機構を用意し、
制御機構ごとに報酬を与えることで、状態空間の爆発を抑えつつ
複雑な系の制御器を獲得する強化学習アルゴリズムを提案する。
実験では、テレビゲームのキャラクタ操作制御に提案手法を適用し、
その有用性を確認した。