FIT2020 第19回情報科学技術フォーラム

電子情報通信学会情報・システムソサイエティ
電子情報通信学会ヒューマンコミュニケーショングループ
情報処理学会

抄録

CF-005
サブゴールによる内発的報酬を用いたモデルベース深層強化学習の考察

◎丸山元輝・遠藤聡志・山田孝治（琉球大）

一般的に強化学習は，報酬がスパースな環境で学習が困難であることが知られている．この問題を解決するために，エージェント自らが報酬を生成する内発的報酬を与えて学習する手法が注目されている．そこでタスクを分解して得られたサブゴールに対して内発的報酬を与える方法が考えられる．本研究では先読みとサブゴールの類似度から報酬を生成する方法と，実際にサブゴールに到達した際の報酬の与え方によって学習にどのような影響を及ぼすか考察する．

A	モデル・アルゴリズム・プログラミング
B	ソフトウェア
C	ハードウェア・アーキテクチャ
D	データベース
E	自然言語・音声・音楽
F	人工知能・ゲーム
G	生体情報科学
H	画像認識・メディア理解
I	グラフィクス・画像
J	ヒューマンコミュニケーション＆インタラクション
K	教育工学・福祉工学・マルチメディア応用
L	ネットワーク・セキュリティ
M	ユビキタス・モバイルコンピューティング
N	教育・人文科学
O	情報システム