情報処理学会第88回全国大会

正確な力学モデルの構築が難しいため、多関節ロボットや劣駆動のルールベースでの制御は非現実的である。それに対して強化学習がめざましくロボットの制御手法として研究されている中、仮想環境で強化学習を行なったあと、実環境の動作の際に用いられるSim-to-Realの技術の限界が指摘されている。このギャップを乗り越えるために実環境で全て学習する研究事例があるが、学習時間がかかりすぎるという問題がある。そこでこの論文では仮想環境で強化学習を行なったあと、実環境での経験収集を行い、ファインチューニングをすることでSim-to-Realのギャップを吸収し、学習時間の短縮を図る。