情報処理学会第88回全国大会

本研究では, マルチモーダル理解に基づき, ユーザのクエリ入力を必要とせず, 意味的情報を保持したまま動画を指定時間へ短尺化・長尺化する手法を提案する. 具体的には, LLMを用いて動画・トランスクリプトから複数のクエリを生成し, これらと映像・音声・トランスクリプトを入力とするTransformerベースのマルチモーダル動画要約モデルにより重要シーンを特定する. 短尺化では重要箇所の抽出とナレーション補完を行い, 長尺化では自然なスロー再生やシーン再配置を組み合わせる. 実験では、提案手法を用いて意味的整合性を保ちつつ柔軟な時間伸縮を実現できた.