7U-05
スポーツ放送映像におけるマルチモーダル行動認識 -画像特徴量と実況音声テキスト特徴量の統合-
○大久保深,秦野 亮,西山裕之(東理大)
従来のスポーツ映像における行動認識研究は主に画像特徴量のみを使用していた。しかし、スポーツ放送映像には場面説明を行う実況音声が存在し、それが有効な特徴量となると考えられる。
そこで本研究では、画像特徴量と実況音声から取得したテキスト特徴量を用いるマルチモーダルな手法を提案する。
野球放送映像に提案手法を適用したところ、画像特徴量のみに基づく従来手法よりも高い精度を達成し、実況音声テキストが有効な特徴量であると示された。
さらに、三種類の追加実験から、提案手法は学習データにない実況者による実況音声や別スポーツに対しても汎用的であり、実況音声テキスト特徴量は他特徴量には含まれない有効性を持つと示された。