6U-04
複数報酬型DQNの提案
○片岡玄太,顧 優輝,真部雄介,菅原研次(千葉工大)
本研究では,強化学習法の一つであるDQNにおいて,目的に適した報酬要素を組み合わせた報酬戦略に基づく学習により特定の行動をとるエージェントを作成し,作成したエージェント群を組み合わせて制御する手法を提案する.
ここで,報酬要素とは強化学習における行動とそれによって得られる報酬のペア,報酬戦略とは報酬要素の集合を表す.
実験では環境から得られる報酬要素を分類し,それぞれを最大化することを目的とした報酬戦略を作成する.
エージェント群の組み合わせパターンと制御によって選択された行動の計測データから,報酬戦略の選択によってエージェントが獲得する行動にどのような違いが生まれるのかを解析した.

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会