情報処理学会 第86回全国大会 会期:2024年3月15日~17日

2Q-05
破滅的忘却を軽減する継続的強化学習のためのマルチドメイン平均化
○高橋快成(北陸先端大),長沼大樹(モントリオール大)
近年、深層強化学習をロボット知能や自動運転等の実用的なスキームへ用いる取り組みが増加している。それに伴い、実用的な環境において継続的に新たな知識を学習していくことができる継続学習の重要性が高まっている。しかし、連続的に異なるドメインやタスク等を学習しようとした場合、以前に学習したこれらの精度が劣化してしまう破滅的忘却が重要な課題として知られている。本研究では、深層強化学習における継続学習の枠組みに対してモデル平均化を適応することで破滅的忘却の影響を軽減し、複数のドメインの知識をな有するエージェントの獲得を実現することができるか検証する。