6R-09
POMDPs環境下での強化学習を用いたロボットの行動学習
○昇龍之介,長名優子(東京工科大)
本研究では、POMDPs環境のための決定的政策を学習するProfit Sharingを用いて、POMDPs 環境下での強化学習を用いたロボットの行動学習を実現する。ロボットは、迷路の開始地点から移動してゴールに到達することを目標とする。PSD (Position Sensitive Detector)距離センサを用いて壁との距離を計測し、それを観測として利用する。行動は、前進、右を向く、左を向くの3種類の中から、観測に応じて選択する。報酬は、ゴール達成までのステップ数が少ないものほど大きな報酬を与えるものとし、できるだけ少ないステップ数でゴールに到達できるような行動規則を学習する。

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について