FIT2011 第10回情報科学技術フォーラム

抄録

RA-003
相互処罰による協調: 私的観測付き無限回繰り返し囚人のジレンマの部分観測マルコフ決定過程による解法

◎ヨンジュンジョ・岩崎　敦（九大）・神取道宏（東大）・小原一郎（UCLA）・横尾　真（九大）

本論文は相手の行動に関する観測がノイズを含む繰り返しゲームにおける均衡を吟味する．これは不完全私的観測繰り返しゲームと呼ばれ，経済学分野だけでなく人工知能分野からも注目されている．しかし，このゲームにおける均衡を計算するのは非常に難しいと言われてきた．近年，プレイヤの振舞いを有限状態オートマトン (FSA) で記述し，部分的観測可能マルコフ決定過程を用いることで，そのFSAが均衡を構成する否かを計算できることが示された．しかし，その具体的なアルゴリズムは未解決であったため，本論文では均衡を計算するためのアルゴリズムを提案し，従来より優れた性質をもつk期相互処罰というFSAを発見した．