情報処理学会 第88回全国大会

2M-07
因果グラフに基づく未観測領域推定への取り組み
○杉村真理子,小林一郎(お茶の水女子大)
本研究は、オフラインで未観測領域を正確に捉えるために、因果グラフを導入した推定モデルを提案する。オフポリシー評価やオフライン強化学習は、リスクを伴うオンライン実験が必要な強化学習とは異なり、過去に別のポリシーを運用して得られたログデータを使ってオフラインで安全にポリシー評価やポリシー学習を行うことができる。しかし、多くの手法で未観測領域のモデル化に一般的な予測モデルが用いられている一方で、相関に基づく予測モデルでは未観測領域を正確に捉えられないという課題があった。そこで本研究では、環境全体の因果グラフに基づいてモデルを構築することで、未観測領域を正確に捉えた新たな手法の構築を目指す。