1M-04
自己組織化特徴マップに基づいた時系列パターンのための確率的連想メモリによる強化学習を用いたロボットの行動学習
○水野暁翔,長名優子(東京工科大)
不完全知覚問題が生じるような部分観測マルコフ決定過程(POMDPs:
Partially Observable MarkovDecision Processes)環境においては、
決定的な政策を学習することは難しい。それに対し、過去の観測の
系列を用いることで、同じ観測に対して複数の行動をとる必要があ
る場合にもより適切な確率で行動の選択が行える手法としてPOMDPs
環境のための決定的政策を学習するProfit Sharingが提案されてい
る。また、この手法を自己組織化マップに基づいた時系列パターン
のための確率的連想メモリにより実現する方法も提案されている。
本研究では、自己組織化マップに基づいた時系列パターンのための
確率的連想メモリによる強化学習を用い、ロボットの行動学習を実
現する。

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会