イベント企画
トップコンファレンス6-3 マルチメディア
2023/9/8 9:30-12:00
第6イベント会場

座長:酒向 慎司(名古屋工業大学)

9:30-9:50 講演(1) 【タイトル邦題】 勾配の類似度に基づくマルチタスクカリキュラム学習
五十嵐 博昭(株式会社デンソー AI研究部 )
【原発表の書誌情報】 Hiroaki Igarashi, Kenichi Yoneji, Kohta Ishikawa, Rei Kawakami, Teppei Suzuki, Shingo Yashima, and Ikuro Sato, "Multi-task Curriculum Learning based on Gradient Similarity", Proceedings of the British Machine Vision Conference (BMVC), 2022.
【概要】 複数のタスクを同時に学習するマルチタスク学習ではネットワークを共通化することで計算量が削減できる一方で、学習中にタスク同士が負の作用を及ぼし合い認識性能が低下することがある。提案手法では簡単なデータから学習するカリキュラム学習の戦略をマルチタスク学習に導入することで、学習序盤の負の作用を軽減し、学習されたモデルの認識性能を改善する。
【略歴】 2014年早稲田大学大学院修士課程修了。同年日本電気株式会社中央研究所に入社し、画像処理高速化の研究開発に従事。2020年より現職の株式会社デンソーAI研究部にてAD/ADAS向けカメラ認識アルゴリズムの研究開発に従事。
9:50-10:10 講演(2) 【タイトル邦題】 ダイナミックモーダルアテンションによるセンサ拡張型一人称視点映像キャプショニング
中村 克行(日立製作所 先端AIイノベーションセンタ 知能ビジョン研究部 部長)
【原発表の書誌情報】 Katsuyuki Nakamura, Hiroki Ohashi, Mitsuhiro Okada, "Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention," Proc. ACM International Conference on Multimedia (ACM MM), 2021.
【概要】 一人称視点映像とウェアラブルセンサデータを用いた行動キャプショニング手法、およびデータセット「MMAC Captions」を提案する。映像・センサ特徴に動的アテンションをかけることが特徴であり、特に単一のモダリティだけでは判別困難なシーンに有効であることを確認した。
【略歴】 2007年 東京大学大学院 新領域創成科学研究科 博士課程修了。同年、(株)日立製作所 中央研究所入社。物体追跡、一人称視点映像解析、マルチモーダル認識などの研究開発に従事し、2022年より同社研究開発グループ 先端AIイノベーションセンタ 知能ビジョン研究部長。2015-2016年 スタンフォード大学コンピュータサイエンス学科 客員研究員。2005年 FIT ヤングリサーチャー賞、2011年 IEEE Consumer Electronics Society Best Paper Award in Television Technologyなど受賞。
10:10-10:30 講演(3) 【タイトル邦題】 視線データのみを用いた機械学習による意図推定を用いた凝視入力
礒本 俊弥(筑波大学 大学院システム情報工学研究群情報理工学位プログラム 博士後期課程)
【原発表の書誌情報】 Toshiya Isomoto, Shota Yamanaka, Buntarou Shizuki. Dwell Selection with ML-based Intent Prediction Using Only Gaze Data. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies (IMWUT), Vol.6, No.3, Article 120, pp.1-21. September 2022.
【概要】 我々は、機械学習により推測するユーザーの選択意図を用いた凝視選択手法を開発した。これにより、視線入力インタフェースの課題である「意図しない操作の発生」を従来手法と比較して約90%減らすことができた。
【略歴】 2020年筑波大学システム情報工学研究科博士前期課程修了。同年よりシステム情報工学研究群情報理工学位プログラム博士後期課程在籍し、日本学術振興会特別研究員DC2。専門は視線入力インタフェースおよび人間の行動モデリング
10:30-10:50 講演(4) 【タイトル邦題】 ソーシャルメディアマーケティングのための世界観の一貫性を考慮したブランド画像推薦
張 軼威(theAstate株式会社 Research Scientist)
【原発表の書誌情報】 Yiwei Zhang and Toshihiko Yamasaki, "Style-Aware Image Recommendation for Social Media Marketing," Proceedings of the ACM International Conference on Multimedia (ACMMM), pp. 3106–3114, 2021.
【概要】 SNSにおいて、一貫した世界観を持つ画像投稿を支援するための技術を実現した。SNS上のブランドアカウントからの投稿画像からオブジェクト特徴とスタイル特徴の双方を抽出・学習し、ブランドにふさわしい画像を推薦するフレームワークを提案した。実験では2つのデータセットを用い、提案手法の優位性を示した。
【略歴】 2022年東京大学大学院情報理工学研究科電子情報学専攻博士課程修了。同年よりtheAstate株式会社に所属。ソーシャルメディアデータマイニング、推薦システム、マルチメディア処理などの研究に従事。博士(情報理工学)。東京大学大学院情報理工学系研究科研究科長賞を受賞。
10:50-11:10 講演(5) 【タイトル邦題】 ConceptBeam: 概念に基づく目的音声抽出
大石 康智(NTT )
【原発表の書誌情報】 Y. Ohishi, M. Delcroix, T. Ochiai, S. Araki, D. Takeuchi, D. Niizumi, A. Kimura, N. Harada, K. Kashino, "ConceptBeam: Concept Driven Target Speech Extraction" in Proceedings of the 30th ACM International Conference on Multimedia, Oct. 2022, Pages 4252–4260.
【概要】 セマンティックな情報に対応する表現である「概念」を手がかりに,混合音声から目的音声を抽出するConceptBeamを提案する。画像の内容を説明する音声キャプションを利用して混合音声信号を作成し,画像や別の音声によって指定された概念に関わる音声信号を抽出する評価実験を行い,ConceptBeamの基本動作と抽出性能を確認した。
【略歴】 2009年 名古屋大学大学院情報科学研究科メディア科学専攻博士後期課程修了。博士(情報科学)。同年、日本電信電話株式会社に入社。2014年 株式会社NTTデータに転籍。2017年 NTT コミュニケーション科学基礎研究所に戻り、現在に至る。音声や映像のメディア認識、生成、探索技術に関する研究開発に従事。
11:10-11:30 講演(6) 【タイトル邦題】 頭部装着型ディスプレイ組込式光センサによる表情認識に多様な視線方向と頭部方向が与える影響の検証
中村 文彦(立命館大学 情報理工学部情報理工学科モバイルコンピューティング研究室 助教)
【原発表の書誌情報】 Nakamura, F., Murakami, M., Suzuki, K., Fukuoka, M., Masai, K., Sugimoto, M.: Analyzing the Effect of Diverse Gaze and Head Direction on Facial Expression Recognition with Photo-Reflective Sensors Embedded in a Head-Mounted Display, IEEE Transactions on Visualization and Computer Graphics, 17 pages (2022).
【概要】 頭部装着型ディスプレイに組み込んだ反射型光センサによる表情認識手法に視線方向と頭部方向が与える影響を検証した.実験から,視線方向・頭部方向を上下に動かしたデータを学習することでユーザに大きな負担をかけずに表情認識精度が向上できると示唆された.
【略歴】 2017年慶應義塾大学大学院理工学研究科開放環境科学専攻修士課程修了後,2019年までキヤノン株式会社開発者.2022年慶應義塾大学大学院理工学研究科開放環境科学専攻博士課程修了.博士(工学).日本学術振興会特別研究員(DC2/PD),慶應義塾大学大学院理工学研究科特任助教を経て,現在,立命館大学情報理工学部助教.バーチャルリアリティのための表情計測に関する研究に従事.