情報処理学会第85回全国大会

本研究では、畳み込みニューラルネットワークを用いたProfit Sharingにおけ
るExperience Replayの利用を提案する。Profit Sharingにおける行動価値を学
習する場合には、Deep Q NetworkにおけるExperience Replayをそのまま利用す
ることはできない。Profit Sharingにおける行動価値を学習する際の誤差関数
では報酬分配量が教師信号として用いられるため、メモリに観測、行動、報酬
分配量の3つを蓄積しておくこととする。こうすることで、メモリに蓄積したデー
タからランダムにとり出してミニバッチを生成することが可能となり、学習の
際に何度もデータを利用することが可能になる。