抄録
F-022
方策ベースの複利型強化学習
伊藤徳晃・松井藤五郎(中部大)
一般に高次元の空間を用いて学習させる場合や、高速に学習させたい場合は、勾配を用いてパラメータを更新し、目的関数を最適化する方策勾配法が用いられる。しかし、複利型強化学習は株式や為替の取引において有効であることが示されているが、方策勾配法を用いた複利型強化学習はこれまで提案されていない。そこで、本論文では、方策勾配法を用いた複利型強化学習を提案する。また、OpenAI gymの倒立振子 (CartPole) のシミュレーションを用いた実験結果により、提案手法の有効性を示す。