情報処理学会第88回全国大会

自動駐車タスクのような複雑で多様なシナリオで強化学習エージェントを訓練することは依然として困難な課題であるが、この課題に対処するため、自動駐車に特化させたフレームワークであるHybrid pOlicy Path plannEr (HOPE)が提案されている。このアプローチは、ハイブリッド方策とアクションマスクの二つの工夫によって、学習効率とタスク成功率の向上を実現させている。しかし、HOPEはステップごとにアクションマスク処理を行うため計算量が多くなってしまう。本研究では、計算効率と学習効率向上を目指し、アクションマスクに使用する計算量の動的変更と学習過程における模倣学習の活用を提案する。