情報処理学会第88回全国大会

画像認識分野では，モデルの精度向上に加え，モデルが着目する視覚的特徴の理解も重要視されている．自己教師あり学習手法DINOをVision Transformer（ViT）に適用すると，教師あり学習時よりも注意マップが画像中の主要物体領域へ強く集中するというCaronらの報告を踏まえ，本研究では，両学習手法における潜在表現の相違を解析した．その結果，DINOでは初期層からモデルの注意とパッチ特徴が整合する一方で，教師あり学習時にはこれらの間に乖離が見られることが明らかになった．このことは，教師ありおよびDINOモデルで，注意マップと特徴表現の関係が系統的に異なることを示唆している．