抄録
F-018
POMDPs環境におけるエントロピと遺伝的アルゴリズムを用いてサブゴール創発を行う強化学習法
鈴木晃平・加藤昇平(名工大)
強化学習は一般的に正しく観測情報が得られるマルコフ決定過程(MDPs)の環境を想定している.しかし実環境において,センサの知覚能力などにより正確な観測情報が獲得できるとは限らず,そのような環境では強化学習をうまく行うことはできない.正確な環境情報を得ることができない環境を部分観測マルコフ決定過程(POMDPs)をいう.本稿では,POMDPs問題を解決すべく,観測情報のエントロピと遺伝的アルゴリズムを用いてサブゴールを決定する新たな手法を提案し,その有効性を迷路走行タスクを用いた比較実験により検証する.