第3回:
AIと歩む未来(2):画像・映像処理の最前線

日時:2019年9月26日(木) 10:00~16:45
会場:化学会館7F(東京会場)
   大阪大学中之島センター7F 講義室702(大阪会場)
   東北大学電気通信研究所 本館1階 オープンセミナールーム(東北会場)
受付開始:9:30~

画像・映像応用ではディープラーニング(深層学習)による技術革新の勢いが止まらない。アルゴリズムの進歩、計算機技術の進歩が、より大量のデータを扱うことを可能にし、より高精細の画像・映像をより精緻に解析することを可能にした。人間と同等以上のパターン認識能力や、本物かどうかが人間には見分けがつかない生成能力を獲得しつつある。このセミナーでは、画像・映像処理における5つの側面―意味理解・画像生成・3D認識・動画像認識・計算高速化―から、研究と応用の最前線で活躍している若手研究者にご講演いただき、現時点の技術で、「できること」、「できないこと」を「活写」する。
オープニング[10:00~10:10]

コーディネータ:篠田 浩一

国立大学法人東京工業大学 情報理工学院情報工学系 教授

【略歴】1989年東京大学修士(理・物理)卒。2001年に東京工業大学より博士号(工学)取得。1989年日本電気(株)入社、1997年から1998年までルーセント・ベル研究所客員研究員。現在、東京工業大学教授。専門は音声認識、映像検索、統計的パターン認識、ヒューマンインタフェース。1998年電子情報通信学会論文賞受賞。2014年から2016年まで情報処理学会音声言語情報処理研究会主査。現在、JST CREST「社会インフラ映像処理のための高速・省資源深層学習アルゴリズム基盤」研究代表者。

セッション1[10:10-11:10]

画像・映像理解と自然言語への架け橋

 深層学習の恩恵は、画像や自然言語といった単独のモダリティでの識別や生成の精度の向上だけではない。各モダリティで独自の特徴量抽出や処理技術が発達していた中で、深層学習が共通のモジュールとして浸透したことも大きな変化である。結果として、コンピュータビジョンと自然言語処理の狭間でビジョン&ランゲージと呼ばれる融合分野の研究が盛んになっている。   本講演では、ビジョン&ランゲージの諸分野ついて概観する。画像の内容を自然言語で記述するキャプション生成や画像の内容について回答するビジュアル質問応答といった代表的なものから、画像を経た言語間の相互変換や言語からの画像生成など挑戦的な取り組みについても紹介する。またこれらを統合した取り組みとして、対話の中で画像と自然言語の両方を扱うような対話技術の萌芽にも触れる。

講師:牛久 祥孝

オムロンサイニックエックス株式会社 Research Administrative Division Principal Investigator

【略歴】2013年東京大学大学院情報理工学系研究科博士課程修了。博士(情報理工学)。2014年NTTコミュニケーション科学基礎研究所研究員。2016年 東京大学情報理工学系研究科講師。2018年からオムロンサイニックエックス株式会社Principal Investigatorおよび2019年から株式会社Ridge-i社外CRO(Chief Research Officer)を兼務。主として画像キャプション生成や画像認識、クロスメディア理解の研究に従事。

セッション2[11:20-12:20]

深層学習による画像生成

深層学習は画像を対象とした分野において、シーン認識や物体検出,セグメンテーションなど幅広いタスクに応用され,これまでの手法の性能を大きく上回ることが報告されています.特に近年では、目的の画像を作り出す用途にも広く利用されており、コンピュータグラフィクスやコンピュータビジョン分野を中心に高い関心を集めています。本講演では、まず深層学習による画像生成技術を画像の処理・編集に応用した研究について概観し、どのようなアプリケーションに深層学習が有効かを説明します。その中で、基本となるニューラルネットワークモデルや学習方法についても簡単に解説します。その後、画像の自動着色や画像の修復などいくつかの研究事例に焦点を当て、それぞれの研究背景や使われるニューラルネットワークの構造、得られる結果、今後の展望などをお話しします。

講師:飯塚 里志

筑波大学 システム情報系/人工知能科学センター 助教

【略歴】筑波大学システム情報系/人工知能科学センター助教。2015年筑波大学大学院システム情報工学研究科博士後期課程修了。博士(工学)。日本学術振興会特別研究員(DC1)、早稲田大学研究院講師を経て2018年10月より筑波大学に勤務。コンピュータグラフィクス、特に画像生成・編集に関する研究に従事。

セッション3[13:25-14:25]

機械学習を用いた3次元データ認識について

近年、3次元センシング技術と機械学習の発展により、3次元データを認識する技術が飛躍的に進化してきている。従来は計測データの幾何情報のみから解かれてきた3次元再構成や形状フィッティングの問題にも、物体の外観や属性の情報を取り入れ、データドリブンな最適化を用いるものが増えてきた。さらには、データ認識プロセスを逆再生して、セマンティクスからリアリスティックな3次元データを生成する研究も盛んに行われるようになった。3次元の物体を認識するには、やはり現在は深層学習を用いた手法が主流であるが、その中でも、RGBDベース、ボクセルベース、点群ベース、多視点画像ベース等の様々なアプローチが存在する。本講演では、これらのアプローチを用いた従来研究から最先端研究について俯瞰的な紹介を行う。さらに、3次元物体認識ベンチマークデータセットで世界最高精度を誇る、我々の多視点画像ベースな物体認識手法について述べる。

講師:金崎 朝子

国立研究開発法人 産業技術総合研究所 人工知能研究センター 主任研究員

【略歴】2008年東京大学工学部卒業。2010年同大学院情報理工学系研究科 修士課程修了。2013年同大学院同研究科博士課程修了、博士(情報理工学)。(株)東芝研究開発センター、同大学院同研究科助教を経て、2016年より産業技術総合研究所人工知能研究センター勤務。機械学習を用いた三次元物体認識、物体検出、ロボットビジョンの研究に従事。

セッション4[14:35-15:35]

コンピュータビジョンによる動画認識

静止画に対する認識精度は近年飛躍的に向上し、基礎/応用ともにさらなる拡がりを見せようとしている。一方、常に変化する時系列情報である動画像の解析に関しては未だ発展途上段階にある。我々の存在する現実世界は常に状況が変化するいわゆる動画像で構成されているため、その多様な応用先を鑑みるに、今後は動画像解析への対応が必要不可欠である。本発表では近年の動画認識の変遷から最新動向、さらに講演者自身の研究を通して「動画像解析は静止画認識のように今後発展するのか?」というテーマについてディスカッションを行う。

講師:片岡 裕雄

国立研究開発法人 産業技術総合研究所 知能システム研究部門 研究員

【略歴】2014年3月慶應義塾大学大学院後期博士課程修了、博士(工学)。2014年東京大学 JSPS特別研究員(PD)、2015年 国立研究開発法人 産業技術総合研究所 特別研究員を経て、2016年より現職。動画像解析、人物行動認識、大規模DB構築に従事。

セッション5[15:45-16:45]

深層学習の高速化と大規模並列化

深層学習に用いられるデータとモデルの増大により、その大規模並列化の必要性が増している。分散並列の深層学習ではデータを分散させモデルを重複して持つ「データ並列」が一般的に用いられる。このとき、GPU数に比例してミニバッチサイズが増大することになるため、確率的勾配降下法(SGD)の持つ正則化効果が失われ、汎化性能がGPU数が大きくなると次第に低減することが観測されている。本研究では、2次の最適化手法であるK-FACを用いることで、ラージバッチ学習の問題を緩和し、ImageNetのResNet-50を用いた学習を数千GPU規模の分散並列環境で行なった。比較に用いたSGDはこのデータセットとモデルではハイパーパラメータチューニングが徹底的に行われてきており、それに対する収束性と並列性の優位性が示せたことでK-FACの効果を確かめることができた。

講師:横田 理央

東京工業大学 学術国際情報センター 准教授

【略歴】2009年慶應義塾大学理工学研究科博士課程修了、同年Bristol大学ポスドク研究員、2011年Boston大学ポスドク研究員、2012年King Abdullah University of Science and Technology常勤研究員、2015年より東京工業大学学術国際情報センター准教授、現在に至る。高性能計算、大規模並列計算に関する研究に従事。博士(工学)。