情報処理学会 第88回全国大会

5ZA-03
大規模事前学習動画モデルを用いたオンライン時系列アクション区間検出
○田澤良太,川上 玲(東京科学大)
未来のフレームを参照できないOnline Temporal Action Localization (TAL)では,連続する動画からアクション区間の開始・終了点を一貫して推定することが難しい.既存手法ではフレーム単位や短い区間ごとに開始・終了点を推定するため,予測が時間的に断片化しやすく,アクション変化を検出しやすい動画特徴が用いられる.本研究では,大規模事前学習動画モデルの性能を活用し,一定区間ごとにアクションを予測する.THUMOS14データセットにおいて平均 mAP 51.4%を達成し,既存のOnline TAL手法のSOTAを上回った.