3P-04
任意のパレート解を得るための多目的強化学習のパラメータ推定
○斉竹良介,荒井幸代(千葉大)
実社会では多くの競合する目的の最適化が求められる場面が多い。最適化問題の一解法である強化学習研究においても二つ以上の目的を最適化する多目的強化学習が提案されている。一方,強化学習研究では最適解群の中から任意の解へとエージェントを収束させる方法への要請は大きく,そのためには,対象問題の事前知識を使って適切なパラメータを設定しなければならないことがある。
そこで,本研究は最適行動が既知なエージェントを用いてパラメータを設定する方法を提案する。具体的には,各目的に対する選好を重みとして表現する多目的強化学習手法をベースとして,求めたいパレート解を得るための重みを最適な行動軌跡から推定する。

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会