7S-08
負の報酬を獲得する状況を考慮した畳み込みニューラルネットワークを用いたProfit SharingへのExperience Replayの導入
深層強化学習の1つとして畳み込みニューラルネットワークとProfit
Sharingを組み合わせた手法が提案されている。しかしながら、障
害物回避問題など、問題によっては負の報酬を獲得する状況を重視
した学習が重要な場合もある。それに対し、負の報酬を獲得する状
況を考慮した畳み込みニューラルネットワークを用いたProfit
Sharingが提案されている。この手法では、障害物回避問題を例題と
して実験を行い、負の報酬を獲得する状況におけるルールを異なる
環境下で利用できる可能性があることが示されている。しかし、この
手法では、学習する際に時間的に連続したデータを用いているため、
データ間の相関が高くなってしまい偏りが生じてしまうという問題
点がある。この問題に対し、Experience Replayという手法が提案
されている。本研究では、負の報酬を獲得する状況を考慮した畳み
込みニューラルネットワークを用いた Profit SharinへのExperience
Replayの導入を提案する。
Sharingを組み合わせた手法が提案されている。しかしながら、障
害物回避問題など、問題によっては負の報酬を獲得する状況を重視
した学習が重要な場合もある。それに対し、負の報酬を獲得する状
況を考慮した畳み込みニューラルネットワークを用いたProfit
Sharingが提案されている。この手法では、障害物回避問題を例題と
して実験を行い、負の報酬を獲得する状況におけるルールを異なる
環境下で利用できる可能性があることが示されている。しかし、この
手法では、学習する際に時間的に連続したデータを用いているため、
データ間の相関が高くなってしまい偏りが生じてしまうという問題
点がある。この問題に対し、Experience Replayという手法が提案
されている。本研究では、負の報酬を獲得する状況を考慮した畳み
込みニューラルネットワークを用いた Profit SharinへのExperience
Replayの導入を提案する。