5M-05
神経生理に触発された仮想報酬関数を自己改造する強化学習
○水戸亜友美,甲野 佑(電機大),太田宏之(防衛医大),笹川隆史(電機大)
ヒト・動物が時間的にスパースな手掛かりに基づいて行動する場合,中長期的なサブゴールの自律的な設定あるいは内発的な動機の維持が必要となる.これと同様な機能を強化学習エージェントに持たせることを目的として,エージェント内部の時間ステップ単位を超えた中長期的なサブゴール設定およびそのサブゴールに対する仮想報酬の付与が検討されている.既に視覚的な手掛かりを元にサブゴールを設定した上で探索する方法が提案されているが,本研究では線条体ニューロンに関する知見からエージェント内部に異なる時間スケールで動作する2つの状態遷移モデル持たせ,仮想報酬関数を動的に修正することでサブゴールを形成する手法を提案する.

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会