2S-8
POMDPs環境のための決定的政策を学習するProfit SharingのKFM連想メモリによる実現
○高麗大地,長名優子(東京工科大)
部分観測マルコフ決定過程(POMDPs: Partially Observable Markov Decision
Processes)環境において過去の観測の系列を用いることで、同じ観測に対して
複数の行動をとる必要がある場合にもより適切な確率で行動の選択が行える手
法としてPOMDPs環境のための決定的政策を学習するProfit Sharingが提案され
ている。本研究では、POMDPs環境のための決定的政策を学習するProfit
SharingをKFM (Kohonen Feature Map)連想メモリによって実現することで、観
測にノイズが含まれるような環境下でも学習を可能にする。

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について