情報処理学会 第87回全国大会

6U-05
因果グラフに基づく報酬推定モデルを用いたオフポリシー評価
○杉村真理子,小林一郎(お茶の水女子大)
本研究は、オフポリシー評価における報酬推定モデルの精度向上を目的とし、因果探索で生成した因果グラフを用いた新たなオフポリシー評価手法を提案する。オフポリシー評価とは、ある意思決定ポリシーを実運用せずに、別のポリシーの運用データから仮想的に評価する手法である。しかし、一般的にオフポリシー評価で報酬推定モデルとして用いられる従来の機械学習モデルは、データの選択バイアスに十分な対応が難しい。そこで本研究では、因果探索で得た因果グラフを基に因果推論モデルを構築して報酬推定モデルとして使用することで、選択バイアスの解消による推定精度の向上を図る。