情報処理学会 第82回全国大会 会期:2020年3月5日~7日 会場:金沢工業大学 扇が丘キャンパス 情報処理学会 第82回全国大会 会期:2020年3月5日~7日 会場:金沢工業大学 扇が丘キャンパス

5U-03
畳み込みニューラルネットワークを用いたProfit Sharing - ボルツマン選択法による行動選択 -
○前田拓実,長名優子(東京工科大)
畳み込みニューラルネットワークを用いたProfit Sharingでは、
いくつかのゲームにおいて Deep Q-Networkよりも高いスコアが獲
得できるように学習が行えることが確認されている。しかしながら、
不完全知覚状態のように同じ観測に対して異なる行動を選択する
必要があるような問題に対しては、いずれの手法でも適切な行動選
択が行えるように学習が行えていない。本研究では、畳み込みニュ
ーラルネットワークを用いたProfit Sharingにおいて、ε-greedy法
の代わりにボルツマン選択を用いることで不完全知覚状態が含まれる
ような問題において行動価値に応じて複数の行動の中からランダムに
行動選択が行えるようにし、より適切に学習が行えるか検討を行う。