2X-08
学習オートマトンを用いたQ-学習の高速化
○小山 裕,原 元司(松江高専)
マルコフ決定過程における強化学習の代表例であるQ-学習は,各状態における行動を無限回選択する場合に,Q値が最適な値に概収束(確率1収束)することが証明されている.しかし,これまでにQ-学習で提案されている行動選択法では,最適行動の選択確率の収束特性について概収束よりも弱いε-最適(確率収束)の概念で学習性能が議論されている.これに対し,筆者らはある条件を満たした確率的環境下で最適となるβ-タイプ学習オートマトンをQ-学習の行動選択手法に導入した「LQ-学習」を提案する.ε-greedy法といった代表的な行動選択法によるQ-学習に対して,LQ-学習が優速であることを報告する.