7N-06
深層強化学習によるロボットの無報酬な環境の探索
○妹尾卓磨,大澤正彦,今井倫太(慶大)
報酬が存在しないような環境では,状態遷移モデルの予測誤差を内部報酬として強化学習を行うことでエージェントの探索を促すことができる.しかし,実環境で画像入力からロボットのモーター操作を学習する場合,学習序盤では出力が大きく変化するため慣性力が働き,画像変化が決定的ではなくなるため状態遷移のモデル化が困難である.慣性力が働くロボットの学習を行うには,学習可能な状態遷移を生成するように行動を行う必要がある.そこで,本研究では強化学習器の信頼度に応じてモジュール切り替え可能なAccumulator Based Arbitration Modelを用いて,信頼度が低い場合はモーター出力を抑制し,無報酬な環境でのロボットの探索を可能にする深層強化学習手法を提案する.

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会