情報処理学会第84回全国大会講演論文集

7S-08

負の報酬を獲得する状況を考慮した畳み込みニューラルネットワークを用いたProfit SharingへのExperience Replayの導入

○平間拓也，長名優子（東京工科大）

深層強化学習の1つとして畳み込みニューラルネットワークとProfit
Sharingを組み合わせた手法が提案されている。しかしながら、障
害物回避問題など、問題によっては負の報酬を獲得する状況を重視
した学習が重要な場合もある。それに対し、負の報酬を獲得する状
況を考慮した畳み込みニューラルネットワークを用いたProfit
Sharingが提案されている。この手法では、障害物回避問題を例題と
して実験を行い、負の報酬を獲得する状況におけるルールを異なる
環境下で利用できる可能性があることが示されている。しかし、この
手法では、学習する際に時間的に連続したデータを用いているため、
データ間の相関が高くなってしまい偏りが生じてしまうという問題
点がある。この問題に対し、Experience Replayという手法が提案
されている。本研究では、負の報酬を獲得する状況を考慮した畳み
込みニューラルネットワークを用いた Profit SharinへのExperience
Replayの導入を提案する。