6P-03
分布シフトの影響を緩和する深層強化学習におけるモデル平均化手法
○高橋快成(北陸先端大),長沼大樹(モントリオール大学/モントリオール学習アルゴリズム研究所)
実用的な深層強化学習のスキームであるロボット制御では、シミュレーション環境において学習し、実際のロボットでの動作を想定する。シミュレーションと実社会での動作における環境差、データの分布シフトによって獲得したエージェントが汎化しないことが喫緊の課題である。近年、アンサンブル手法がこの課題に対して有効であることが示されているが、膨大な計算コストを必要とする。我々は、計算コストの削減と学習の安定化が報告されているアンサンブル手法の近似手法に着目し、この課題に取り組む。Super Mario Bros の異なるステージを実験環境として用いて、疑似アンサンブル手法が深層強化学習における分布シフトの堅牢性へ与える影響について検証を行なった。