情報処理学会 第87回全国大会

5V-08
負の報酬を獲得する状況を重視したDeep Q-Networkを用いた最短経路探索 
○小金沢颯士,長名優子(東京工科大)
負の報酬を獲得する状況を重視した学習を行う手法として、負の報酬を獲得す
る状況を重視したDeep Q-Network\cite{Asanuma}が提案されている。この手法
では、負の報酬を獲得する可能性がある状況とそれ以外の状況とを区別して行
動価値の学習を行う。また、負の報酬を獲得する状況を重視したDeep
Q-Networkにおいて、Random Network Distillationで未知の状態の判別に使用
されている方法を利用して負の報酬を獲得する可能性がある状況かどうかの判
定を行う方法も提案されている。しかしながら、負の報酬を獲得する状況を重
視することによる効果が、実験によって十分に検証されていない。また、経路
探索問題において、障害物回避は行えるが、最短経路の探索は行えていないと
いう問題がある。本研究では、負の報酬を獲得する状況を重視したDeep
Q-Networkにおいて、最短経路探索を実現する方法を提案する。また、負の報酬
を獲得する状況を重視することによる効果の検証も行う。