情報処理学会 第86回全国大会 会期:2024年3月15日~17日

2C-07
バンディット問題における満足化基準について
○仲里慎司,下川哲矢(東理大)
バンディット問題における人間行動モデリングについて、近年、ガウス過程とUCB方策を組み合わせたGP-UCBモデルが、その記述精度の高さから注目を浴びている。GP-UCBモデルは選択肢の分散を評価する探索的なヒューリスティクスであるが、一方で、経済学分野では、人間はリスク回避的な性向をもつことが知られており、この点で見解が異なる。また、GP-UCBモデルでは意思決定主体の時間に対する選好も十分に反映されておらず、今のところ、実データに対する実証的な精度の良さによってのみ評価されている。本研究では、これらの問題に対してDynamic Programmingの観点から行動モデルを記述し直し、同問題における人間の行動選択モデルとして新たな表現方法を提案する。