情報処理学会第83回全国大会講演論文集

1Q-06

複数のモデルから適したモデルを選択し実行する強化学習機構の提案

○江平凌太，田胡和哉（東京工科大）

強化学習において、報酬が疎な環境で学習を効率的に行うことは未だ難しい課題であり、現実世界のタスクに対して強化学習を応用する事例が限られる理由にもなっている。
本研究では、複数の学習済みモデルから適切なモデルを選択して順に実行することで、報酬が疎な環境においても効率的に報酬を得られるモデルを獲得する機構を提案する。
ロボットが特定の段階を踏んだ行動をすることで報酬を得られる環境を用いて、異なる報酬関数から得られた複数のモデルから実行順序を獲得する機構を作成し、単一の報酬関数を用いた学習と比較して効果を測定することで、効率的な学習が可能であることを示す。