情報処理学会 第87回全国大会

7U-02
EfficientZeroの表現ネットワークへの自己教師あり学習の導入
○五月女茉碧,長名優子(東京工科大)
深層学習と強化学習とを組み合わせた深層強化学習の分野において様々な手法
が提案されている。そのような手法のひとつとして、モンテカルロ木探索をベー
スとしたAlphaZeroに畳み込みニューラルネットワークを導入したMuZeroが提案
されている。しかしながら、訓練データが少ない場合には適切に学習を行えな
いという問題がある。それに対し、少ない訓練データでも学習が行える
EfficientZeroが提案されている。この手法では、ダイナミクスネットワークへ
の自己教師あり学習の導入、行動価値や状態評価の算出方法の変更により、訓
練データが少ない場合にも適切に学習が行うことができる。しかしながら、表
現ネットワークの出力する潜在状態が観測の類似性を十分に反映していない可
能性があるという問題がある。そこで本研究では、EfficientZeroの表現ネット
ワークに自己教師あり学習を導入することを提案する。