2X-05
ジェスチャープロンプトを用いた一般物体検出:事前学習済みオープンボキャブラリ物体検出器の活用-
○井上颯太,島田伸敬(立命館大)
現在の物体検出タスクはクエリにテキストや物体の見えなどを用いるが、クエリに身振りを利用するものは限定的である。本研究では、事前学習済みのオープンボキャブラリ物体検出器(OWL-ViT)を用い、物体画像データセットを使用することなく、ジェスチャーをクエリとして直感的かつ効率的な物体検出が可能な手法を提案する。OWL-ViTは検出物体のラベルではなく物体名テキストの埋め込みベクトルを出力するので、物体を形象するジェスチャーに対応する物体名の埋め込みテキストベクトルを出力するジェスチャー画像エンコーダを訓練する。推論時には、ジェスチャー画像エンコーダの出力と物体ベクトルの類似度の高い領域を抽出する。