情報処理学会第83回全国大会講演論文集

2Q-09

非対称学習率による報酬確率分布の弁別性向上

○佐鳥玖仁朗，吉田　豊，神谷　匠（電機大），太田宏之（防衛医大），高橋達二（電機大）

動物は探索行動の際，良い結果予測に対する悪い結果(負)，悪い結果予測に対する良い結果(正)に関して非対称に学習を行うことが示唆されている．この非対称な学習の効用を明らかにするため，バンディットタスクにおける各選択肢の報酬確率密度の分散と平均に差がある場合における，正と負の学習率比と報酬獲得量の関係を調べた．その結果，各選択肢の報酬確率密度の平均が近接しつつも分散が異なる場合，学習率比の増減が平均の差に対する価値評価の差を拡大・縮小させることを見出した．本結果は，複数の報酬確率密度に対する非線形識別関数の導入に向けた検討の土台を提供するものと考えられる．