情報処理学会 第82回全国大会 会期:2020年3月5日~7日 会場:金沢工業大学 扇が丘キャンパス 情報処理学会 第82回全国大会 会期:2020年3月5日~7日 会場:金沢工業大学 扇が丘キャンパス

2R-08
Sarsaエージェントによる囚人のジレンマゲームでの相互協調の継続回数
○百武佳輝,森山甲一,武藤敦子(名工大),松井藤五郎(中部大),犬塚信博(名工大)
囚人のジレンマゲームで長期に渡って報酬を最大化するには相互協調が継続することが必要である。しかし強化学習エージェントのように自分の報酬の最大化を目的とする場合、協調を選択することは稀である。これまで強化学習の手法の一つであるQ学習エージェントについて、相互協調発生後の価値関数の挙動から相互協調の継続回数について議論がされてきた。ブートストラップ型強化学習で行動価値を学習する手法は方策オフ型のQ学習と方策オン型のSarsaに分けられるため、本研究ではSarsaにおける相互協調の継続回数を求めることで、行動価値を学習するブートストラップ型強化学習の囚人のジレンマゲームにおける挙動を議論する。