情報処理学会第84回全国大会講演論文集

2P-09

報酬量の分散に対する学習率の非対称化による適応

○有村柊一，佐鳥玖仁朗，神谷　匠，吉田　豊，高橋達二（電機大），太田宏之（防衛医大）

生物は、出産前や飢餓状態のように、平常時の意思決定では目標を達成できず、リスクを伴ってでも多くの栄養を必要とする局面に遭遇することがある。そのような過酷な状況に対応するため、生物は良い経験と悪い経験を非対称に学習することで適応している可能性が示されている。今回我々は、非対称な学習を説明するモデルであるDLR-Qをグリッドワールド環境で分析することによって、非対称な学習がどのような生存戦略を作り出しているのかを分析した。