5R-1
行動傾向規範に従った学習率の動的調節による適応的強化学習
○三村明寛,加藤昇平(名工大)
エージェントが試行錯誤を通じて自律的に制御則を学習・獲得する
強化学習では,学習率や割引率等のメタパラメータを適切に設定す
る必要がある.従来は,設計者のチューニングによりメタパラメータ
を固定値で設定していた.しかしながら,チューニングは設計者の
負担であるだけでなく,固定値のメタパラメータでは動的な環境下
において適切な学習を行うことは困難であると考えられる.本稿で
は,学習の速さと安定性のトレードオフをとるメタパラメータである
学習率に着目し,これを各状態(行動)の学習進度に応じて自律的に
調節することによる適応的な強化学習手法を提案する.また,動的環
境において,提案手法の有効性を確認する.