1M-03
POMDPs環境における強化学習を用いたロボットの衝突回避行動学習
○田中健太,長名優子(東京工科大)
教師信号を用いずに環境との相互作用により適切な行動を行うため
の政策を獲得するための学習方法として、強化学習に関する様々な
研究が行われている。これらの多くはマルコフ決定過程を前提とし
たものであるが、不完全知覚状態が存在する部分観測マルコフ決定
過程(POMDPs : Partially Observable Markov Decision Processes)
環境下においても決定的政策を学習することのできるProfit Sharing
に基いた手法が提案されている。本研究では、POMDPs 環境における
強化学習を用いてロボットの衝突回避行動学習を実現する。これに
より、POMDPs環境やノイズが含まれるような環境下においても、ロ
ボットの行動規則の獲得を目指す。

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会