2R-9
連続状態空間における状態クラスタを用いた強化学習
○小野寺道寛,鈴木輝彦,太原育夫(東理大)
 強化学習を用いて連続状態空間上での学習をエージェントに行わせる場合,複数種類の行動系列の獲得が求められることが少なくない.しかし,1つの学習器ではそれらの行動系列を全て獲得することは困難である.
 そこで本研究では,必要とされる行動系列が同一で且つ近接している状態同士を1つの状態クラスタとしてまとめて,1つの状態クラスタ毎に1つの学習器を与えることにした.これにより,複数種類の行動系列の獲得が可能となり,最適解を導くことも可能になる.
 この状態クラスタの生成を動的に行うことにより,内部状態の異なるエージェントに対して学習結果を再利用させることができ,状態クラスタを用いることの有効性を示した.

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について