情報処理学会第82回全国大会講演論文集

5U-04

段階的にサブゴールを獲得するStepwise Unified Hierarchical Reinforcement Learningの提案

○黒須宏道，真部雄介，菅原研次（千葉工大）

本研究は，Unified Hierarchical Reinforcement Learning(UHRL)の獲得できないサブゴールがあるという問題点を解決しようとする研究である．UHRLでは，ランダム行動をさせて訪れた環境状態をクラスタリングしてサブゴールを作成している．しかし，前提条件を満たしていないと得られない報酬に弱いという問題点が挙げられる．提案手法として，UHRLの処理を段階的に複数回行うことでこの問題を解決しようとする．前段階で獲得したサブゴールを用いた行動をさせた後に，サブゴール獲得処理のランダム行動をさせることで解決可能だと考えている．実験・評価方法として，長い行動系列が必要な環境をグリッドワールドで作成し，それを解決できるか確認することで性能評価を行う．