情報処理学会第82回全国大会講演論文集

7C-04

Attention Branch Networkにおける報酬の不確実性予測を伴う深層強化学習手法の提案

○鈴木彼方（富士通研），尾形哲也（早大）

深層強化学習はロボットタスクやゲームの学習において高い性能を示しているが，実環境などのセンサから報酬値を取得した場合に含まれるノイズを考慮しておらず，学習が安定しないケースが考えられる．本研究では，深層強化学習手法の一種であるA3Cを報酬の分散を予測するよう拡張し，同時に特徴マップとして行動出力に参照する機構を組み込んだ．報酬の不確実性を考慮して状態価値の学習を行うことで，報酬にノイズが含まれる場合でもモデルの精度が安定する．実験としてOpen AI Gymのゲーム環境において，環境から得られる報酬にノイズを加えて提案手法の検証を行った結果，学習収束の有効性が確認された．