情報処理学会第88回全国大会

ディープラーニング技術の発展に伴い、近年、画像をキーとして検索を行う画像検索に関してさまざまな手法が提案されている。そのような手法の1つとして、ViTのTransformer Encoderの出力であるクラストークンに対応する埋め込みベクトルを特徴ベクトルとして用いて風景画像の類似画像検索を行う手法が提案されており、畳み込みニューラルネットワークを用いた手法よりも高い精度で検索が行えることが確認されている。しかし、この手法では、画像全体の文脈は捉えことができる一方で、個々の物体に関する局所的な情報が十分に考慮されていないという問題がある。それに対し，TransformerベースのSemantic Segmentation手法もいくつか提案されており、高い精度でSegmentationが行えることが知られている。そこで、本研究では、OneFormerの出力ラベルとViTの埋め込みベクトルを用いた風景画像を提案する。