情報処理学会第82回全国大会講演論文集

4U-07

負の報酬を獲得する状況を重視したDeep Q-Network

○浅沼駿哉，長名優子（東京工科大）

深層強化学習の手法の一つとしてDeep Q-Networkが提案されている。
この手法では、基本的には正の報酬に着目して学習が行われる。し
かし、負の報酬を獲得しないことの方が正の報酬を獲得することよ
り重要な課題に対して効率的に学習できなくなってしまう。本研究
では、負の報酬を獲得する状況を重視したDeep Q-Networkを提案す
る。この手法はDeep Q-Networkに基づいた手法であり、観測が負の
報酬を獲得する可能性がある状況を判断した上で行動選択を行うよ
うにすることで学習の効率化を図る。