2R-8
複数の報酬とゲート機構を用いたモジュール型強化学習アルゴリズム
○吉田裕昭,橋本周司,松本友実(早大),中村真吾(芝浦工大)
強化学習を用いて入力数が多く複雑なシステムの
最適な制御器を獲得しようとすると,
状態空間が指数関数的に拡大し,膨大な学習時間が必要となってしまう.
この問題を解決するために,著者らは既に複数の報酬,ゲート機構を使用し,
制御機構毎に報酬を与えることで状態空間の爆発を抑え,
なおかつ従来のモジュール型強化学習では実現困難な複雑な系の制御器を
獲得するモジュール型強化学習アルゴリズムを提案した.
本研究では,汎用性を高めるためのゲート選択則の改良を行った.
評価実験として
複数のテレビゲームの操作制御に提案手法を適用し,その汎用性を確認した.

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について