5T-01
ユーザーの意向を反映したTransformerと強化学習を用いた映像要約手法
○金 俊阳,澤田 隼,大村英史,桂田浩一(東理大)
本研究では、ユーザーの意向を反映しつつ高精度な映像要約を実現するため、Transformerと強化学習(PPO)を組み合わせた新たなアプローチを提案する。まず、映像をサンプリングフレームに分割し、特徴量を抽出する。続いてTransformerにより各フレームの選択確率を予測する。最後に、代表性、多様性、およびユーザーが指定した重要度を考慮した報酬関数を設計し、これを基にPPOを用いて選択確率を更新することで、ユーザーの好みを反映した映像要約を生成する。SumMeデータセットで評価したところ、ユーザーの満足度と映像要約の多様性を両立する優れた性能を示した。