7D-02
SOMに基づく多腕バンディットアルゴリズム
○馬目信人(ソフトバンクロボティクス/東大),篠原修二(東大),鈴木康大,朝長康介(ソフトバンクロボティクス/東大),光吉俊二(東大)
コミュニケーションロボットにおいて対面するユーザを満足させるには,ロボットの持つ多くの行動選択肢からより早くそのユーザに適した行動を出力する必要がある.このような問題は,多腕バンディット問題として定式化される.多腕バンディット問題とは,レバーを引くとある確率で報酬が得られる腕が複数ある環境下においてどのように腕を選択すれば得られる報酬を最大化できるか考える問題である.本稿では,Self-Organizing Mapを用いた多腕バンディット問題のための新しいアルゴリズムを提案する.また,数値実験により提案アルゴリズムが既存アルゴリズムUCB1,UCB1-Tuned,Thompson Samplingに比べ,より腕の多い環境下においてより早く報酬確率の高い腕を選択できることを示す.

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会