情報処理学会ホームページ
FIT2013第12回情報科学技術フォーラム 開催日:2013年9月4日(水)~6日(金) 会場:鳥取大学鳥取キャンパス
抄録
F-037
動的環境におけるマクロオペレータと副報酬
武藤真司・鈴木輝彦・太原育夫(東理大)
現実世界に即した常に変動する可能性を有する環境に対して,エージェントがより迅速に対応するために事前の学習により学習した内容と,変動後の環境で新たに再学習した内容を分割,結合し新たな学習内容とするマクロオペレータの導入は学習効率の改善に貢献することが明らかになっている.しかし,マクロオペレータには再学習に時間がかかる等,依然として学習効率面で問題を抱えている.本研究では,マクロオペレータ同様学習効率を上げるとされ,また単純な迷路問題に限らず様々な問題解決に有用とされる副報酬の導入がマクロオペレータによる学習効率の改善に影響を及ぼすか検討する.