情報処理学会ホームページ
FIT2013第12回情報科学技術フォーラム 開催日:2013年9月4日(水)~6日(金) 会場:鳥取大学鳥取キャンパス
抄録
F-040
文脈に応じて行動価値を分割するQ-learning
武石真登・濱上知樹(横浜国大)
文脈に応じて行動価値を分割するQ-learningを提案する.行動価値を過去の行動の履歴に応じて分割し,行動選択を行うときに,過去の行動の履歴に応じて分割された行動価値を参照する方法により,文脈に適した行動選択が可能となる.提案手法の有効性を確認するために,各状態の行動に,1ステップ前の速度が干渉する環境における自律移動タスクを提案手法を用いて学習させた.その結果,提案手法は行動価値の数が多いのにも関わらず,学習の収束性能がQ-learningと同等であることを示した.また,経験したことのない文脈でも以前の経験を生かして学習を進めることができることを確認した.