5Q-4
POMDPs環境下での過去の観測系列を用いた学習
○高森洋平,長名優子(東京工科大)
教師信号を用いずに,環境との相互作用により適切な行動系列を獲得するため
の学習手法として,強化学習に関する研究が行われている.
なかでもエージェントの知覚能力が制限された部分観測可能マルコフ決定過程環境における強化学習が注目されている.
本研究ではそのような環境で,報酬獲得のために同一観測にもかかわらず,状況に応じて異なる行動をとる必要がある状態に対して,過去の観測系列を利用することで適切な行動が選択可能な手法を提案する.
実験を行い,エージェントが上下左右しか観測することができないような迷路走行タスクにおいて,最終的に適切な行動系列を獲得できることを確認した.