情報処理学会第87回全国大会

動画を視聴する際、特定のシーンを素早く振り返りたいと望むことがよくあるが、そのシーンの位置が不明確なため、うまく見つからないことがある。この問題を解決するために、本研究ではマルチモーダルモデルに基づくビデオシーン抽出手法を提案する。本手法では、ユーザーが入力したテキスト記述とビデオのフレームをCLIPモデルで照合し、記述に一致するフレームを自動的に特定する。特定されたフレームに対しては、指数移動平均（EMA）アルゴリズムで平滑化処理を行い、シーンの連続性と滑らかさを確保している。