2Q-1
遺伝的プログラミングを用いた多間接ロボットを対象とした強化学習における報酬関数の進化モデル
○角野翔太,武藤敦子,加藤昇平(名工大)
強化学習ではエージェントの行動を評価し効率的な学習を行うために、適切な報酬関数が用意されている必要がある。特に、多間接ロボットなどの複雑な制御が必要とされる対象に強化学習を適用する場合、効率的な学習を行うためにはロボットの状態や環境情報などを用いて適切な報酬関数を構築する必要があると考えられる。しかし現状の強化学習では、報酬関数をヒューリスティックに決定しているため、適切な報酬関数を用意できているとは限らず、設計者の負担も考えられる。本研究では遺伝的プログラミングを用いた学習進化モデルを構築し、強化学習エージェントの自立進化により問題環境に対して適切な報酬関数を獲得する。