Human Action Recognition-Based Summarization of User-Generated Sports Video

（邦訳：動作認識に基づくユーザ撮影スポーツビデオ映像の要約）

Tejero-de-Pablos Antonio

東京大学特任研究員

［背景］冗長性の高いスポーツ映像の自動要約に対する需要

［問題］一般ユーザによって録画された特定の構造のないスポーツ映像の自動要約

［貢献］選手の動作に基づいてハイライトを自動抽出する要約手法の提案と評価

スポーツビデオの要約を自動的に生成するためには，試合の面白いところ，すなわちハイライトを検出することが必要である．スポーツビデオを要約するために，従来手法では編集規則（たとえば，ナレーション，テキストおよび特定のカメラワーク）を活用し高レベルセマンティクスを抽出し利用していた．しかし，ユーザが自分で撮影するビデオ（すなわち，ユーザ生成ビデオ）には編集規則が利用できないため，従来の要約手法が使えないという問題があった．

この課題に取り組むために，我々はスポーツビデオ映像中の選手の動作に着目する新しい自動要約手法を提案する．すなわち，映像の編集規則が利用できない場合においても，選手の動きや技を認識することにより，ユーザが面白いと感じるハイライト映像を抽出する．これを実現するために，まず学習事例が少ない場合にも人間の動作認識が実現できる手法を開発した．具体的には，デプスカメラで取得した深度画像から推定されたbody jointを用いて人物の動作テンプレートを作成し，テンプレートマッチングによって動作を認識する．また，深度画像のノイズを軽減するためにbody joint推定の信頼度をマッチングに活用する．

次に，人間動作認識の結果を使用し，試合のハイライトモデルを生成する手法を開発した．ここでは，スポーツ経験者と未経験者によって“interesting”と“uninteresting”にラベル付けされたユーザ生成ビデオを用いて学習を行った．また，提案手法を評価するために，深度カメラ（例 Kinect）を用いて剣道の試合を撮影し，学習・評価用データセットとして用いた．実験では，提案手法がユーザの経験（経験者・未経験者）に応じて適切な要約映像を作成できることを確認した．

またこれに加えて，選手の動作以外の情報も併用することで，より正確にハイライトを識別する手法を開発した．具体的には，ディープニューラルネットワークを使用し，2種類の動作特徴を抽出するbody joint-basedとholistic，および深度画像，RGBカラー映像，から特徴を抽出し，ハイライトの識別を試みた．ここではさまざまな特徴の組合せで提案手法を評価し，2種類の動作特徴を用いる手法が，より正確にハイライトを識別できることを確認した．本研究では，スポーツ映像の一例として，剣道の映像を対象として実験を行ったが，ボクシングや卓球などを含む，さまざまなスポーツに適用できると考えられる．

（2017年5月15日受付）

取得年月日：2017年3月
学位種別：博士（工学）
大学：奈良先端科学技術大学院大学

推薦文：（コンピュータビジョンとイメージメディア研究会）

本論文は，ユーザが撮影したスポーツビデオ映像を自動で要約することを目的とし，撮影された人物の動き情報に着目したこれまでにない手法を提案している．人物の動き情報に着目することで，決まった構成や構造のないスポーツビデオの効果的な要約に成功しており，大きな将来性と実用性を持つ研究論文として推薦する．

著者からの一言：

スペイン人としては，海外に滞在しながら博士号をとるのは挑戦的でしたが，充実した良い経験になりました．読者の皆様にも海外研究者と共同研究することをお勧めしたいと思います．これからますます大学等での国際交流が増え，大規模プロジェクトを国際的な環境で行える機会も増えるのではないかと思います．将来日本のグローバル化に貢献できたらと考えています．

2016年度へ戻る

このページの先頭へ