連続セミナー2023「人とAIが共生する社会に向けた情報技術」

  • シェアする
  • ツイート
  • noteで書く
  • LINEで送る
参加申込はこちら

第4回【8月2日(水) 13:00~16:30】

画像生成AI


第3次AIブームが発生して久しいですが、昨年2022年は生成AIで更に大きなうねりが発生した年でもあります。その中心となった技術の一つはGPTに代表される大規模言語モデルですが、もう一つは拡散モデルを中心とした画像生成AIでした。本セミナーでは画像生成AIと題して、敵対的生成ネットワークから拡散モデル、そして3次元化までを含めた一連の技術を紹介いたします。
  • [13:00-13:10] オープニング

    牛久 祥孝
    牛久 祥孝(オムロンサイニックエックス株式会社 リサーチアドミニストレイティブディビジョン リサーチオーガナイザー兼プリンシパルインベスティゲーター)

    【略歴】2014年東京大学大学院情報理工学系研究科博士課程修了、NTTコミュニケーション科学基礎研究所入所。 2016年東京大学情報理工学系研究科講師。 2018年よりオムロンサイニックエックス株式会社 Principal Investigatorおよび2019年より株式会社Ridge-i Chief Research Officer、2022年より合同会社ナインブルズ代表、現在に至る。 主としてコンピュータビジョンや自然言語処理を対象として、機械学習によるクロスメディア理解に従事。
  • [13:10-14:00]Session1 「敵対的生成ネットワーク(GAN)による画像生成とその応用」

    近年、深層学習をベースとした生成モデル(深層生成モデル)の発展は著しく、最新の画像生成AIではかなり精緻な画像が生成可能になりつつある。敵対的生成ネットワーク(Generative Adversarial Networks、GAN)は、そのような深層生成モデルの代表的なものの一つであり、識別器を騙そうとする生成器と、生成器に騙されないようにする識別器の二つのニューラルネットワークが互いに競争しながら学習することを特徴に持つ。本講演では、このGANにフォーカスして画像生成の基礎と応用について解説する。まず、GANの基礎では、そもそも画像生成とは何かについて説明した後、深層生成モデルの中でのGANの位置付けや理論的背景などについて解説する。続いて、GANの応用では、GANを実際に利用する際に有効な技術として、高解像度画像を生成するための技術、画像生成をコントロールするための技術、そして、ノイジーなデータに対する頑健性を得るための技術などについて紹介する。

    金子 卓弘(日本電信電話株式会社 コミュニケーション科学基礎研究所 特別研究員)

    【略歴】2014年東京大学大学院修士課程修了。同年、日本電信電話株式会社に入社、コミュニケーション科学基礎研究所に所属。2020年東京大学大学院博士課程修了。博士(情報理工学)。2020年よりコミュニケーション科学基礎研究所特別研究員。専門分野はコンピュータビジョン、信号処理、機械学習。特に近年は、深層学習を用いた画像生成、音声合成、音声変換の研究に従事。日本機械学会畠山賞、ICPR Best Student Paper Award、音声研究会研究奨励賞、東京大学大学院研究科長賞、電気通信普及財団テレコムシステム技術賞等を各受賞。
  • [14:00-14:10] 休憩

  • [14:10-15:00] Session2「拡散モデルによる画像生成とその応用」

    石井 雅人

    拡散モデルは生成モデルの一種であり、データがノイズへと徐々に崩壊していく「拡散過程」を逆にたどるというアイデアに基づいて、ランダムなノイズをデータへと変換することでデータを生成する。多様なデータの生成に強いことが経験的に知られており、近年では特に与えられたテキストに沿った画像を生成するtext-to-imageのタスクにおいて、その性能の高さに注目が集まっている。本講演では、まず、多くの拡散モデルの基礎となっているDenoising Diffusion Probabilistic Models (DDPMs)について解説する。その後、text-to-imageを始めとする条件付き生成への拡張や、学習済みの拡散モデルを用いることで様々な画像関連タスクを省コストに実現する方法などについて紹介する。

    石井 雅人(株式会社ソニーリサーチ Sony AI, Music Foundation Model Team 1課 リサーチサイエンティスト)

    【略歴】2010年 東京大学大学院 修士課程修了。博士(情報理工学)。2010~2019年 NEC中央研究所 研究員、2017~2019年 理研AIP 客員研究員、2019年 ソニーグループ株式会社入社、2023年より株式会社ソニーリサーチに出向、現在に至る。一貫して画像向けの機械学習アルゴリズムの研究開発に従事。第3回技術経営・イノベーション賞 文部科学大臣賞、MIRU2016 長尾賞、MIRU2017 優秀賞受賞。
  • [15:00-15:10] 休憩

  • [15:10-16:00]Session3「三次元構造を考慮した画像生成」

    加藤 大晴

    画像は縦と横の二次元の構造を持つ情報であるが、本来的には奥行きを持った三次元世界を二次元平面に投影することによって生じるものである。このことを陽に考慮して、二次元画像を直接的に生成するのではなく、まず三次元世界を生成してからそれを平面に投影することで画像を生成する技術の開発も進められている。そのようなアプローチは、同一のシーンをいろいろな視点から見た画像を、視点によって物体の形が変わってしまうなどの破綻を起こすことなく生成できるため、映像コンテンツの制作などに有用である。ここでの技術上の大きな課題は、写真(二次元画像)は簡単に撮影でき、またインターネット上で大量に手に入れることができるのに対し、本当に生成したい三次元データは測定が困難であり、また機械学習に用いるための大量のデータも手に入りにくいことである。本講演では、二次元画像を通じて三次元世界を扱う技術を中心に、三次元構造を考慮した画像生成技術の動向を紹介する。

    加藤 大晴(株式会社 Preferred Networks リサーチャー)

    【略歴】2020年9月 東京大学大学院 情報理工学系研究科 知能機械情報学専攻 博士後期課程修了。2014年よりソニー株式会社にて音楽・音響処理に関する研究開発に従事。2018年より株式会社Preferred Networks にてコンピュータビジョンに関する研究開発に従事。2018年 NVIDIA Pioneering Research Award 受賞。
  • [16:00-16:30]パネルディスカッション

  • シェアする
  • ツイート
  • noteで書く
  • LINEで送る