情報処理学会第88回全国大会

○須佐井亮，岩本洋紀（塩野義製薬），西山悟史（シオノギテクノアドバンスリサーチ），都地昭夫，北西由武（塩野義製薬）

動画シーン検出の方法の一つとして細分化したビデオクリップをベクトル化し、参照シーンとの類似度で目的シーンを抽出する方法が挙げられる。一般に事前学習済み視覚エンコーダを用いるが、ノイズを含む動画で本質情報を反映するには大量データや撮影条件の調整が必要になる。これらを低減するため、本研究ではVision-Text Alignment能とAttentionにより動画情報とプロンプトとの関連性を反映できるVision-Language Modelを活用し、プロンプトにより本質情報を強調したベクトルを得る方法を提案する。本手法を動物行動試験動画に適用し、プロンプトによるシーン抽出性能の向上を確認した。