5S-04
時系列データを対象とするDeep RecurrentQ-Networkへの学習時間軽減を目的としたQuasi-Recurrent Neural Networkの導入
時系列データを扱える深層強化学習では部分観測マルコフ決定過程に対応できる.例えば,Deep Recurrent Q-Network(DRQN)ではLong-Short Term Memory(LSTM)を使用している.しかし,LSTMは1つ前のタイムステップの情報をもとに計算を行うために,学習に時間がかかるという課題がある.そこで本研究では,DRQNの画像処理層を変更してQuasai-Recurrent Neural Networkを導入し,学習時間の軽減を図った.評価実験では,Atari57(OpenAIGym)の一部ゲームを疑似的に部分観測マルコフ決定過程に変更したものを用いた.