イベント企画
Vision-and-Languageの最前線
2023/9/6 15:30-17:30
第1イベント会場
【セッション概要】 近年、巨大なニューラルネットワークを大量のデータにより事前学習したモデルの発展により、自然言語処理(NLP)およびコンピュータビジョン(CV)分野、さらには「Vision-and-Language」と呼ばれる画像情報と言語情報を組合せた課題解決を行う学際的な研究領域が目覚ましい発展を遂げています。本企画では「Vision-and-Languageの最前線」と題してNLP・CV分野の研究者によるタイムリーな情報発信および交流を目指し,最先端の研究開発を行っている3名の研究者を招待した講演会を実施します。
15:30-16:10 講演(1) Vision-and-Language分野における拡散モデルの活用
石井 雅人(株式会社ソニーリサーチ リサーチサイエンティスト)
【概要】 拡散モデルは生成モデルの一種であり、データがノイズへと徐々に崩壊していく「拡散過程」を逆にたどるというアイデアに基づいて、ランダムなノイズをデータへと変換することでデータを生成する。多様なデータの生成に強いことが経験的に知られており、近年では特に与えられたテキストに沿った画像を生成するtext-to-imageのタスクにおいて、その性能の高さに注目が集まっている。本講演では、まず、多くの拡散モデルの基礎となっているDenoising Diffusion Probabilistic Models (DDPMs)について解説する。その後、text-to-imageへの拡張と、学習済みのtext-to-imageモデルを用いた様々な画像関連タスクの実現方法について紹介する。
【略歴】 2010年 東京大学大学院 修士課程修了。博士(情報理工学)。2010~2019年 NEC中央研究所 研究員、2017~2019年 理研AIP 客員研究員、2019年 ソニーグループ株式会社入社、2023年より株式会社ソニーリサーチに出向、現在に至る。一貫して画像向けの機械学習アルゴリズムの研究開発に従事。第3回技術経営・イノベーション賞 文部科学大臣賞、MIRU2016 長尾賞、MIRU2017 優秀賞受賞。
16:10-16:50 講演(2) 日本語大規模言語モデルを構築・応用する際の技術戦略
佐藤 敏紀(LINE株式会社 Data Scienceセンター AI Dev室 NLP Foundation Devチーム Manager/Principle Software Engineer)
【概要】 近年の自然言語処理分野における基盤モデルは英語圏を中心に発展していますが、LINEでは独自の日本語の大規模言語モデルの開発を進めてきました。本セッションでは、その日本語大規模言語モデルを構築・応用する際に適用した一連の技術戦略についてご紹介します。
【略歴】 2012〜2019年と2020年以降にLINEに所属。単語分かち書き辞書生成システムNEologdの開発者。AIアシスタント「LINE CLOVA」の日本語向けの自然言語理解システムの開発担当。2021年よりNLP開発チームのマネージャー。現在は日本語大規模言語モデルの構築を中心に、日本語の自然言語処理のための本質的な貢献に取り組んでいる。Twitter IDは@overlast。
16:50-17:30 講演(3) Vision and Languageの現状とバイアス
中島 悠太(大阪大学 データビリティフロンティア機構 准教授)
【概要】 Vision and Languageはコンピュータビジョンと自然言語処理の両分野に関連する(比較的)新しいチャレンジとして広く研究が進められています。テキストクエリによる画像検索や画像に関する質問応答、画像の説明文生成などのタスクが含まれており、入出力の組み合わせによって様々な形のモデルが提案されてきましたが、Vision and Languageだからこそ生じる問題も明らかになってきました。本講演ではVision and Languageの最近の研究動向を概観した上で、最近大きな問題となってきているモデルのバイアスに関する研究にも解説します。
【略歴】 大阪大学データビリティフロンティア機構准教授。2012年大阪大学大学院工学研究科博士後期課程修了(博士(工学))。2012年奈良先端科学技術大学院大学助教着任。2015年〜2016年カーネギーメロン大学訪問研究員。2017年より現職。コンピュータビジョンとパターン認識、またその応用に関する研究に従事。