情報処理学会第84回全国大会講演論文集

6R-01

POMDPs環境のためのDeep Q-Networkの有効性の検証と改善

○片岡大喜，長名優子（東京工科大）

Deep Q-Networkでは、部分観測マルコフ（POMDPs）環境では適切に学
習が行えない可能性がある。それに対し、POMDPs環境のためのDeep
Q-Networkが提案されている。この手法は、入力として用いる観測
の長さが異なる複数のDeep Q-Networkを用いる手法である。通常は
4フレーム分の観測を入力とするDeep Q-Networkで出力された行動
価値に基づいて行動選択を行うが、観測が不完全知覚状態であると
判断された場合には8フレーム分の観測を入力とするDeep Q-Network
で出力された行動価値に基づいて行動選択を行う。不完全知覚状態
であるかどうかの判定は観測ごとの行動の決定度と学習開始時から
のステップ数を用いて行う。この手法では、4, 8フレーム分の観測
を利用しているが、何フレーム分の観測を用いるのが適切であるか
の検討が行われていない。本研究では、POMDPs環境のためのDeep
Q-Networkにおいて、不完全知覚状態であると判断された際に用い
るフレーム数などについて検討を行い、その結果について報告する。