情報処理学会第87回全国大会

自然言語処理分野で提案されたTransformerの技術を画像認識に応用した
Vision Transformerが従来の畳み込みニューラルネットワークに代わる新しい
アプローチとして注目されている。また、Mask2FormerなどのViTベースの
Semantic Segmentationの手法も提案されている。そこで、本研究では、
Vision Transformerを用いた画像検索として、ViTのTransformer Encoderの出
力ベクトルを特徴量ベクトルとして用いる方法とMask2Formerの出力ラベルと色
情報を特徴量ベクトルとして用いる方法を提案する。