情報処理学会第82回全国大会講演論文集

4U-06

負の報酬を獲得する状況を重視した畳み込みニューラルネットワークを用いたProfit Sharingにおけるルールの再利用

○名取俊輝，長名優子（東京工科大）

Deep Q-Networkなどの深層強化学習の手法では、正の報酬に着目し
て学習していくため「得点する」ことや「～を倒す」ことなどが重
要になってくる。しかしこの方法では、負の報酬を獲得しないこと
の方が正の報酬を獲得することより重要な課題に対して効率的に学
習できなくなってしまう。「失点しない」ことや「～を避ける」と
いった負の報酬を獲得しないことが重要な課題の場合には,負の報
酬に重点を置いた学習方法を用いることで効率的な学習が期待でき
る。本研究では、負の報酬を獲得する状況を重視した畳み込みニュ
ーラルネットワークを用いたProfit Sharingにおいて、学習を行っ
たのと別の環境におけるルールの再利用の可能性について検討する。