情報処理学会第88回全国大会

自然言語処理におけるマスク自己教師あり学習の成功を皮切りに，視覚認識においてもMasked Autoencoders (MAE)のような手法が注目されている．一方で，MAEが他の自己教師あり学習と比較してどのような概念を獲得しているのかや学習のダイナミクスが不明瞭である．本研究では，Sparse Autoencoders (SAE)を導入し，MAEエンコーダの層ごとの特徴獲得の階層構造を詳細に分析する．SAEにより抽出された特徴を定量評価することで，エンコーダの層における低レベル特徴から高レベルな意味的情報への進化を系統的に捉えることを目指す．この分析は，MAEエンコーダがマスク付き再構成を通して効率的な階層的表現を学習する機構に理論的洞察を提供し，今後の高性能な自己教師あり学習手法の設計とその解釈性向上に貢献するものである．