情報処理学会第84回全国大会講演論文集

1C-06

クールノー競争におけるマルチエージェント強化学習に関する研究

○豊島健太郎，坂本充生（電通大），阿部拳之（サイバーエージェント），岩崎　敦（電通大）

本研究では，不完全観測下のクールノー競争におけるマルチエージェント強化学習のダイナミクスを分析した．クールノー競争とは，複占市場で同じ商品の供給量を決めるゲームで，囚人のジレンマの一般化の1つとして知られている．一般に，プレイヤがお互いの行動を見間違う不完全観測下の均衡計算は非常に小規模な問題にしか適応できない．そこで，本研究では複数の強化学習アルゴリズムを用いてダイナミクスの帰結が厳密に均衡を計算する代わりになるかどうかを検証する．また，強化学習の帰結はしばしば複雑になるため，シンプルなレプリケータダイナミクスの帰結とも比較することで，均衡に相当する振る舞いを明らかにする．