情報処理学会第86回全国大会

テキストの参照表現から画像内のオブジェクトを指定する参照表現理解（Referring Expression Comprehension）というタスクにおいて，言語と画像のマルチモーダルモデルであるCLIPとヒューリスティックス的な手法を組み合わせて追加学習無し（ゼロショット）で実現したReCLIPと呼ばれるモデルがある．このReCLIPに対して，セグメンテーションのための基盤モデルであるSegment Anything Modelを用いて，ゼロショットを維持したまま任意の画像とテキストで実行できるように拡張した．また，テキスト中の参照表現に関係のないオブジェクトを事前に省くことで精度の向上を図った．