イベント企画
トップコンファレンスセッション3
コンピュータビジョン
9月3日(火) 15:30-17:30
第4イベント会場(一般教育棟 B棟 B41)
座長 入江豪(NTT)
15:30-15:50 講演(1) 深層学習を用いた符号化開口カメラによる光線空間の圧縮取得
稲垣 安隆(名古屋大学 工学部情報通信工学専攻藤井研究室 修士2年生)
【原発表の書誌情報】 Inagaki, Y., Kobayashi, Y., Takahashi, K, Fujii, T., Nagahara, H.: Learning to capture light fields through a coded aperture camera, Proc. of the European Conference on Computer Vision (ECCV), pp.431-448 (2018).
【概要】 符号化開口カメラを用いた学習ベースの光線空間の取得法を提案する。学習によって導いた開口パターンと復元アルゴリズムを用いて、わずか数枚の画像から25視点および64視点で構成される光線空間を高品質に復元する事に成功した。
【略歴】 2018年名古屋大学工学部電気電子・情報工学科卒業、同年名古屋大学大学院情報・通信工学専攻博士前期課程入学、現在在学中。藤井研究室にて、光線空間や符号化開口カメラの研究を行っている。
15:50-16:10 講演(2) ハードウェアの制約を考慮した圧縮ビデオセンシングにおける圧縮と再構成の同時最適化
吉田 道隆(大阪大学 大学院情報科学研究科コンピュータサイエンス専攻 博士後期課程)
【原発表の書誌情報】 Yoshida, M. Torii, A. Okutomi, M., Endo, K. Sugiyama, Y. Taniguchi, R. Nagahara, H.: Joint optimization for compressive video sensing and reconstruction under hardware constraints, Proc. of the European Conference on Computer Vision (ECCV) (2018).
【概要】 光線には空間情報や時間情報など様々な情報が含まれるが、通常のイメージセンサは画素が2次元に配置されており、情報をすべて取得することは困難である。圧縮ビデオセンシングは、画素ごとに露光タイミングをずらした画像を撮影し、再構成を行うことでセンサの時空間解像度を超えた動画を得ることができる。圧縮する際には復元に必要な情報を残す必要があるが、それは復元しないとわからない。よって、圧縮と再構成を同時に最適化することで効率の良い圧縮と高品質な再構成を達成できる。
【略歴】 2017年九州大学工学部電気情報工学科卒業、2019年九州大学大学院システム情報科学府情報知能工学専攻修士課程修了、同年大阪大学大学院情報科学研究科コンピュータサイエンス専攻博士後期課程入学、現在在学中。
16:10-16:30 講演(3) 画像中の未知物体に関する情報獲得に向けた質問自動生成
上原 康平(東京大学)
【原発表の書誌情報】 Uehara, K., Tejero-de-Pablos, A., Ushiku, Y., Harada, T.: Visual question generation for class acquisition of unknown objects, Proc. of the European Conference on Computer Vision (ECCV), pp.492-507 (2018).
【概要】 実世界で動作するロボットのような知能システムにとって、外界の状況を把握するためにカメラから得られる画像を認識することは重要である。画像認識分野では、深層学習により高い物体カテゴリ識別精度が達成されているが、深層学習による画像認識では事前に大規模な訓練データを用いて学習したクラスの物体のみを識別対象としている。しかしながら、実世界に存在するすべての物体を事前に学習することは非現実的であり、学習していない未知物体に関する情報を自力で獲得するシステムが必要となる。実世界で人間と関わり合いながら動作する知能システムを想定すると、情報獲得の手段として人間に質問を行うことは最も確実な手段となる。そこで、本研究では、物体検出、未知物体識別、質問生成を行うモジュールからなる、画像中の未知物体に関する質問を自動生成するシステムを構築した。
【略歴】 2018年東京大学工学部機械情報工学科卒業。現在は、東京大学大学院情報理工学系研究科知能機械情報学専攻原田・高畑研究室にて、画像認識や自然言語処理の研究を行っている。
16:30-16:50 講演(4) 物体検出における弱教師付きドメイン適合
井上 直人(東京大学 大学院)
【原発表の書誌情報】 Inoue, N., Furuta, R., Yamasaki, T., Aizawa, K.: Cross-domain weakly-supervised object detection through progressive domain adaptation. Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5001-5009 (2018).
【概要】 最先端の物体検出モデルの学習には、インスタンスレベル(クラス名+場所)のアノテーションを伴う大規模な画像データセットを必要とするため、自然画像以外の新しい画像ドメインでの適用が難しい。本論文では、検出対象のドメインにおいて、画像レベル(クラス名)のアノテーションのみから、物体検出を行うためのドメイン適応手法を提案する。我々は3つの画像ドメインで検出性能評価用のデータセットを新たに構築し、提案手法の有用性を確認した。
【略歴】 2016年東京大学工学部電子情報工学科卒業、2018年東京大学大学院情報理工学系研究科電子情報学専攻修士課程修了、同年同博士課程入学、現在在学中。相澤山崎研究室にてコンピュータビジョンの研究を行っている。
16:50-17:10 講演(5) 一人称視点映像における人物位置予測
八木 拓真(東京大学 生産技術研究所第3部佐藤研究室 大学院生)
【原発表の書誌情報】 Yagi, T., Mangalam, K., Yonetani, R., Sato, Y.: Future person localization in first-person videos, Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.7593-7602 (2018).
【概要】 一人称視点映像中に観測された人物の将来位置を予測する新たな問題に取り組む。一人称視点映像特有の手掛かりである人物の位置履歴、姿勢および装着者の自己運動の三者に注目した予測手法を提案し、独自データセットによりその有効性を実証した。
【略歴】 2017年東京工業大学工学部情報工学科卒業。2019年東京大学情報理工学系研究科電子情報学専攻修士課程修了。現在は同専攻博士課程在学中。コンピュータビジョン、特に一人称ビジョンおよび視覚的予測の研究に従事。
17:10-17:30 講演(6) DTLC-GANを用いた画像生成の階層的制御/ ラベルノイズに頑健なGAN
金子 卓弘(日本電信電話株式会社 NTTコミュニケーション科学基礎研究所 研究員/東京大学 大学院情報理工学系研究科 博士課程)
【原発表の書誌情報】 [1] Kaneko, T., Hiramatsu, K., Kashino, K.: Generative adversarial image synthesis with decision tree latent controller, Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.6606-6615 (2018).
[2] Kaneko, T., Ushiku, Y., Harada, T.: Label-noise robust generative adversarial networks, Proc. of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.2467-2476 (2019).
【概要】 [1] DTLC-GANを用いた画像生成の階層的制御
Generative Adversarial Networks (GAN)は、近年注目を集めている深層生成モデルの一つであり、生成器と識別器の二つのネットワークを敵対的に学習させることによって高精細な画像の生成を可能にする。しかし、オリジナルのGANでは、入力は乱数で与えられ、明示的な制約を持たないため、画像生成を制御することが容易ではなかった。本論文では、この問題を解決するため、画像生成を階層的に制御するための仕組 (Decision Tree Latent Controller; DTLC) をGANに導入する。実験では、様々なデータセットで階層的な画像生成が可能であることを示すとともに、画像検索における有効性も示す。
[2] ラベルノイズに頑健なGAN
GANの代表的な拡張の一つに、条件付き設定への拡張(教師ラベル情報をモデルに導入)がある。この拡張により、画像生成の制御が容易になったり(例えば、どのクラスに属するかをコントロールしたり)、学習を安定化させたりできることが知られている。しかし、これらのモデルでは正しくラベル付けされた教師データが大量に得られていることを前提としており、ラベルが不正確な場合に適用することが困難という問題点があった。本論文では、この問題を解決するために、ラベルノイズに頑健なGAN (Label-Noise Robust GAN; rGAN)を提案する。理論的な裏づけに加えて、実験では、様々なデータセット、ラベルノイズの設定、GANの構成で検証を行い、有効性を示す。
【略歴】 2012年東京大学工学部卒業。2014年同大学大学院情報理工学系研究科修士課程修了、2017年博士課程入学。2014年日本電信電話株式会社入社。専門分野はコンピュータビジョン、信号処理、機械学習。特に近年は、深層学習を用いた画像生成、音声合成、音声変換の研究に従事。2012年日本機械学会畠山賞受賞。同年ICPR2012 Best Student Paper Award受賞。2016年度音声研究会研究奨励賞受賞。