情報処理学会 第87回全国大会

1ZC-02
マルチモーダルモデルに基づくビデオシーン抽出手法
○姜 俊傑,高田秀志(立命館大)
動画を視聴する際、特定のシーンを素早く振り返りたいと望むことがよくあるが、そのシーンの位置が不明確なため、うまく見つからないことがある。この問題を解決するために、本研究ではマルチモーダルモデルに基づくビデオシーン抽出手法を提案する。本手法では、ユーザーが入力したテキスト記述とビデオのフレームをCLIPモデルで照合し、記述に一致するフレームを自動的に特定する。特定されたフレームに対しては、指数移動平均(EMA)アルゴリズムで平滑化処理を行い、シーンの連続性と滑らかさを確保している。