情報処理学会第88回全国大会

物体検出のアノテーションコスト削減策として，1枚の例示画像を基に対象物体を検出するOne-Shot物体検出が注目されている．既存手法のOWL-ViTは本タスクで優れた性能を発揮するが，Open-Vocabulary物体検出を目的に学習されたモデルであるため，そのモデル構造やマルチモーダル学習プロセスには冗長性がある．本研究では，OWL-ViTのテキスト依存性を排除し，One-Shot物体検出に特化したモデルを提案する．強力な視覚基盤モデルDINOv3の導入により，画像-テキスト間のアライメントを排除して学習コストを大幅に削減しつつ，十分な性能が得られることを検証する．