Modeling Spatiotemporal Correlations between Video Saliency and Gaze Dynamics

（邦訳：映像の視覚的顕著性と視線ダイナミクス間の時空間相関モデリング）

米谷竜
東京大学生産技術研究所助教

［背景］コンテンツ閲覧中の注視行動の解析

［問題］複雑な映像コンテンツを閲覧する状況への適用

［貢献］映像コンテンツの顕著性変動と視線情報の関係性をモデル化

我々が日常生活においてディスプレイに提示されたコンテンツに対面する状況，たとえばテレビ番組の視聴といった状況において，アイトラッカーと呼ばれる特殊なカメラを用いることで，我々がコンテンツ中のどこを見ていたのかという視線情報が記録できる．この視線情報がコンテンツによってどのように変化するかという関係性を明らかにできれば，たとえば新たに与えられたコンテンツから見られやすい部分を予測することができ，デザインやマーケティングにおける有効な手助けとなる．さらに，この関係性が人間の興味や集中といった心的状態によってどのように変化するかが分かれば，視線情報からその時々の心的状態を推定することができ，教育支援や運転支援において役立つと考えられる．

人間の注視行動解析とも呼ぶべきこれらの研究課題は，インタラクション，視覚心理，コンピュータビジョン分野などで取り組まれており，特に近年では，上述の関係性を統計的学習に基づき獲得するアプローチが盛んである．しかしながら，そこで扱われるコンテンツは，多くの場合実験者により細かく統制されており，実環境において動的に変化する複雑な映像コンテンツを閲覧する状況に従来の枠組みを適用することは困難であった．

この問題を解決するため，本研究では映像解析技術を利用し，複雑な映像の変化を単純・系統的な変化パターンの組合せによりモデル化するとともに，それらの変化パターンを用いて映像と視線情報の関係性を記述する枠組みを構築した．具体的にはまず，映像中において人間の目を引き付ける顕著領域を抽出，その基礎的な変化パターンを学習し，得られたパターンの組合せで映像全体の変化を効率的に表現する顕著性変動モデルを提案した．そして同モデルを利用し，「特定の変化パターンの組合せ（シーン）に対してどのような視線の動きが起こるか」および「特定の変化パターンに対してどの程度の時空間ずれとともに視線に反応が現れるか」という2種類の関係性（時空間相関）を扱える枠組みを提案した．

論文中では，構築した枠組みに基づいて時空間相関を記述・統計的に学習することで，実環境におけるいくつかの注視行動解析を高度化できることを示している．たとえば，映像を閲覧する際の視線情報が心的状態によってどのように異なるかを学習することで，新たに与えられた視線情報から心的状態を推定するタスクでは，閲覧映像のシーンが固定的な状況が主に扱われてきた．これに対して提案手法では，顕著性変動モデルを用いて映像のシーンを分類し，シーンの種類ごとに異なる特徴を視線情報から抽出して利用することで，シーンの変化に適応的な推定を実現した．ほかにも，映像と視線情報のペアから視線が向きやすい映像特徴を学習することによって，新たに与えられた映像のどこが見られやすいかを予測するタスクでは，映像中の動きに対して視線が遅延する状況を扱えないという限界があった．これに対して提案手法では，視線が顕著領域の動きに対してどの程度の時間的ずれをともなうかを特徴として利用することで，上述の問題を解決した．

（2014年5月26日受付）

取得年月日：2013年11月
学位種別：博士（情報学）
大学：京都大学

推薦文：（コンピュータビジョンとイメージメディア研究会）

映像視聴時の視線の動きを解析することは，映像コンテンツの評価や人の心的状態の推定といったさまざまな応用につながる．本論文は映像の持つ顕著性変動と視線ダイナミクスの間の時空間的相互関係性をモデル化する新たな手法を提案しており，実映像視聴時における注視行動解析への応用可能性をさまざまな観点から示した点を高く評価する．

著者からの一言：

博士論文の執筆にあたって研究室の先生方，スタッフの皆様，友人，家族に支えていただいたこと，心より感謝いたします．また，研究を通して国内外における多くの研究者の方と巡り合えたことは，私にとっての貴重な財産です．これを活かし，今後は1つの分野にとらわれない，より学際的な研究に取り組みたいと考えています．

2013年度へ戻る

このページの先頭へ