3P-02
強化学習における報酬関数と状態空間表現の相互改善法の評価
○吉永和史,荒井幸代(千葉大)
強化学習によるアプローチにおいて報酬関数と状態空間の設計がボトルネックになることが多い.この問題について,報酬関数に対しては逆強化学習,状態空間に対しては基底関数の利用や学習性能に応じた試行錯誤的な方法など,それぞれに対して多くの研究が進められている.しかし,報酬関数と状態空間は相互に密接に関係していると考えられる.そこで,本研究では一方を所与として他方を設計するのではなく,双方を相互に改善する手法に着目して報酬関数と状態空間を獲得し,これらを用いた学習について学習性能,学習効率の観点から,既存の報酬関数や状態空間設計法との比較を通じて,本手法の有用性を評価する.

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会