3P-09
習慣の学習のための強化学習モデル
○水戸亜友美,甲野 佑(電機大),太田宏之(防衛医大),高橋達二(電機大)
我々の行動は目的達成に向かった習慣的行動,すなわち連続した動作系列として自動的に行われている.例えばドアを開ける程度であれば,学習済みの“(ドアを開ける一連の)動作コマンド”を実行し,次の動作決定まで持続する.しかし,合目的的行動の学習を担う既存の強化学習モデルでは非常に細かな時間幅での動作決定が一般的である.強化学習・習慣学習には大脳基底核・線条体が関与している.最近,線条体は細かな動作を統合し,大脳皮質と比べて長い時間幅で機能する事が判ってきた.この機能によって細かな動作単位を束ねて習慣を学習している可能性が高い.そこで本研究では持続する機構によって細かな動作単位を束ねる強化学習モデルを提案する.

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会