情報処理学会第88回全国大会

既存のスパイキングニューラルネットワーク(SNN)ベースの深層強化学習手法は、推論時の省電力性に優れるが、学習性能において人工ニューラルネットワークベースの手法に劣る。本研究では、表現学習で得た埋め込み表現をActor–Critic型のSNNベース深層強化学習に組み込む新手法を提案する。状態と行動の関係を潜在空間上で捉えることで環境ダイナミクスを反映させ、Criticの入力とすることで高精度な価値推定を実現する。連続値制御タスクでの評価の結果、提案手法は学習効率および平均報酬で優れた性能を示した。これらの結果から、SNNベースの深層強化学習手法における学習安定性と性能向上を確認した。