3P-01
深層強化学習における状態系列表現の獲得に向けて
○野口直人,甲野 佑,高橋達二(電機大)
近年の機械学習技術の発展により,視覚情報と試行錯誤のみから学習してテレビゲームをプレイする事が可能になった(DQN).しかし一般的にDQNは一連のプレイを時系列データとして扱う事はせず,N階マルコフ過程に近似して学習を行っている.
DQNは視覚情報を処理するCNN部と行動価値関数を近似するQ-netwark(QN)部を組み合わせた学習器である.そこで我々は直接的に操作可能な時系列を内包可能な状態表現を得るためCNN部とQN部の間に記号化部を導入する事を提案する.これによりRNNと組み合わせて時系列データを扱う事や,更に高度な推論による状態予測と組み合わせる事にも寄与できると考えられる.

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会