CVIM研究会では,カメラで撮影した画像から,被写体となった対象世界がどうなっているのかを明らかにするコンピュータビジョンの研究を扱う.コンピュータビジョンではこれまで,2次元画像の解析,3次元シーンの復元,距離画像の解析,物体認識,対象検出・追跡,色彩情報の解析,カメラキャリブレーションなど数多くの研究を扱ってきた.近年のAIブームを背景に,自動運転や画像・映像理解などのさまざまな産業応用も進んでいる.研究会の開催回数は年5回の開催で,過去10年の登録会員は表1に示すように600人規模で平均150件程度の発表件数で推移している.毎年8月に電子情報通信学会PRMUと共催で行っているシンポジウムMIRUは2019年実績で1053名の参加者を集め,当該分野の注目や盛り上がりを示している.シンポジウムMIRUでは,2012~2016年に論文投稿の英語化を行い,2009年からTrans. CVAを発行し(2016年よりSpringerより発刊),国際的にも研究成果を発信している.それら国際化の活動の成果として,コンピュータビジョン分野での最高峰の会議IEEE Computer Vision and Pattern Recognition(CVPR)などにおいて日本からの発表が多く見られるようになった.また,研究会において時間が限られた口頭発表だけではなく,ポスターの同時発表を導入し,研究会が目指す広い議論の場を設けることで,研究のアイディアのブラッシュアップを行うと同時に,ポスター発表に奨励賞を設けることで若手の研究意欲の向上を目指している.
CVIM研究会のトピックであるコンピュータビジョンの分野の顕著な変化は,研究者数の著しい増加と産業化の流れである.コンピュータビジョンの最高峰の会議であるCVPRの参加者は,10年前1000名程度であったが,昨年アメリカカリフォルニア州のロングビーチで行われたCVPR2019では10000人に迫る参加者となっている.また,会議の企業展示も182社と著しく増え産業界が自動走行や物体認識などのコンピュータビジョン技術に注目していることを表している.コンピュータビジョンは,そもそも幾何モデルやルールベースによる問題解決が行われてきたが,近年の深層学習の広がりにより幾何も含めたあらゆるコンピュータビジョンの問題が学習ベースの手法で解決され従来の性能を凌駕するようになった.これは他のAI分野と同様にGPUなどの計算資源の能力が画像データという2次元の入力ベクトル情報を特徴量をも含めて直接学習できるほどに進化したことに由来する.また,スマートフォンなどのカメラ搭載機器の普及によりカメラで写真を撮ることへの敷居が下がったこと,このようにして大量に撮影される画像が,インターネットを通じて大量の画像データの収集や共有が容易に可能になった.その代表例として,画像枚数1,400万枚以上に画像に写っている物体名(2万クラス以上)をラベル付けしたImageNetデータセットがある.このような公開データセットを用いることで,自分でデータを集めなくても深層学習による識別器を作ることができるようになった.また,このImageNetを用いた物体認識のコンペティション(ILSVRC)も開催され,AlexNet,VGG,GoogLeNet,ResNetなどの新たなモデルが次々と開発され,その認識率を競うことで進化してきた.さらには,研究機関や企業から深層学習を容易に実装できるCaffeや,TensorFlow,PyTorchなどフレームワークが公開され利用できることから,コンピュータビジョンや機械学習の原理,または実装能力が高くなくとも,誰でも容易に実装が可能になったことも大きな成果であろう.これにより従来は,ファクトリーオートメーションなどあらかじめ想定された環境や限られた対象物体にしか安定して用いられなかったコンピュータビジョンが,深層学習の汎化性能により実問題で適用できる応用が広がったことと,コンピュータビジョン研究のコモディティ化により産業が促進された.その結果として,スタートアップを含め数多くのIT企業がこの分野に参入し,多くの研究者や開発者を動員して盛んに研究開発を行っている.
もう1つの流れとしては,コンピュータビジョンが扱う入力画像や対象データのモダリティの広がりである.従来のコンピュータビジョンでは,カメラで得られる2次元射影,可視光のRGB画像を主に対象としてきた.一方で,2010年にMicrosoftからリリースされたKinectを用いることで,安価で特別な知識がなくてもステレオによる奥行き画像を撮影がリアルタイムでできることにより,距離画像や3次元情報を直接扱う研究が増えてきた.このような特殊なセンサは,その後もライトフィールドや,Time-of-Flightによる奥行きセンサ,360度全方位カメラなどさまざまな製品が市場に現れることで新たな入力として一般的に用いられてきている.さらには,前述の深層学習による問題解決は,入力特徴量も学習で求めることから,画像や音声,テキストなどの入力信号のモダリティが変わってもCNNやLSTMなど深層学習を用いた同様のモデルやアプローチで対応できるため,モダリティギャップが縮まった.たとえば,画像や映像の研究と自然言語研究との垣根がなくなり,互いのモダリティを統合利用したVisual Question Answeringのようなマルチモーダルの研究も進んできた.
前述したような,深層学習によるコンピュータビジョン問題の解決の流れは今後も当分の間続くものと予想される.ただし,ここ数年でさまざまな深層学習の課題も明らかになったと思われる.問題の1つは,インターネットやIoT機器の普及でデータ自体を大量に取得することは可能であるが,個人で取得できるデータには限界があるということである.近年の企業による研究発表の多くは学習データを非公開としていることから,これに対抗する認識性能を実現するためには,独自で大量のデータ取得が可能な大企業などに限られる.また,プライバシ問題も同様にデータの取得や公開,アクセスへの制限となっている.また,2次元画像を入力とした深層学習の応用は可能となりつつあるが,動画やCT,MRIボリュームデータなどの高次元入力データに関しては,まだまだ発展途上である.これは,一般的に画像データはネットなどで一般的に入手が容易であるが,多次元データは特殊装置で記録されるため,大量データが入手しにくい.その一方で,多次元になればモデルパラメータが増え,より多量の学習データを要求する現実がある.これを解決するには,データセットの充実や生成,少ないデータで可能な新たな学習手法の提案が望まれる.
さらには,現在の深層学習の主流である教師あり学習には,大量の教師ラベル付きデータを必要としている点にある.ILSVRCコンペティションにおける物体識別モデルの進化や人を超える認識性能の実現は,1,400万枚を超えるラベル付きデータセットが公開されたことで実現したものである.一般には,大量にデータが容易に取得できたとしても,どうやってそれらに有限時間でラベルを付与するのかがボトルネックとなる.これを解決するためには,新たな教師なし学習や弱教師付き学習などラベルなし大量データをうまく活用できる技術の発展が期待される.
目次に戻る
All Rights Reserved, Copyright (C) Information Processing Society of Japan