抄録
F-027
強化学習エージェントの協調をもたらすN人囚人のジレンマゲームの利得関数
田口智健・森山甲一・武藤敦子(名工大)・松井藤五郎(中部大)・犬塚信博(名工大)
社会において、個人の合理的な選択が社会全体の利益と一致せずに葛藤が生じる社会的ジレンマ問題が存在する。そのモデルであるN人囚人のジレンマゲームでは、N人のプレイヤーが与えられた利得関数に基づき、同時に協調または裏切りの行動を選択する。しかし、現実社会では利得関数が与えられているとは限らず、環境における相互作用から行動を学習していく。本研究では、利得関数を知らないエージェントにN人囚人のジレンマゲームを行わせ、行動から得られた報酬をもとにエージェントに強化学習をさせた。この時N人囚人のジレンマゲームの条件を満たしながら、強化学習エージェントが相互協調する利得関数が存在することを示した。