情報処理学会ホームページ
FIT2014 第13回情報科学技術フォーラム 開催日:2014年9月3日(水)~5日(金) 会場:筑波大学筑波キャンパス 一般社団法人電子情報通信学会 情報・システムソサイエティ 一般社団法人電子情報通信学会 ヒューマンコミュニケーショングループ 一般社団法人情報処理学会 筑波大学
抄録
RF-004
ND-POMDPの解法CLにおけるポリシの組み合わせ数と通信量の削減手法
川畑佑記・松井俊浩・松尾啓志(名工大)
ネットワーク分散型部分観測可能マルコフ決定過程(ND-POMDP)は,不確実な状況下におけるエージェント間の協調をモデル化した,意志決定過程である.
ND-POMDPにおける従来解法に協調強化学習(CL)がある.
CLでは強化学習を用いることにより,エージェントに各結合観測履歴における行動を学習させる.
しかし,CLではエージェント間の協調のためにポリシの組み合わせ数と通信量が増えることが問題となる.
本論文では,CLに通信を介さない学習手法である独立強化学習(IL)を部分的に導入することにより,ポリシの組み合わせ数と通信量を削減する手法を提案する.
実験により,提案手法の有効性を評価した.