情報処理学会第88回全国大会

近年，Vision Transformerが画像認識の分野で高い性能を示す一方，Graph Neural Networkを用いたVision GNNも提案され，ViT系モデルに匹敵する競争力を示している．さらに，ViGの枠組みを拡張したViHGNN や，ハイパーグラフを導入したHgVTなど，グラフ構造を取り入れたビジョンモデルの研究が進んでいる．本研究では，その代表例であるViGを対象に，従来のCNNやViTと何が異なるのか，どのような条件で優位となるのかを体系的に分析し，グラフベースのビジョンアーキテクチャの特性と有効性を明らかにすることを目的とする．