イベント企画
トップコンファレンス4-3 画像認識・メディア理解 1
2024/9/5 9:30-12:00
第6イベント会場

座長:齊藤 廣大((株)東芝)

9:30-9:50 講演(1) 【タイトル邦題】 RefEgo: 一人称視点動画Ego4Dからの参照表現理解
栗田 修平(国立情報学研究所 コンテンツ科学研究系 助教)
【原発表の書誌情報】 Kurita, S., Katsura, N., Onami, E.: RefEgo: Referring Expression Comprehension Dataset from First-Person Perception of Ego4D, Proc. IEEE/CVF International Conference on Computer Vision (ICCV), pp.15214-15224 (2023).
【概要】 一人称視点動画データセットEgo4Dに基づいて,動画上の参照表現理解データセットであるRefEgoを構築し,また,2D参照表現理解モデルとオブジェクト追跡アルゴリズムを組み合わせて,ビデオ内で参照されたオブジェクトの追跡を実現した.
【略歴】 2019年 3月 博士(情報学)京都大学 黒橋・河原研究室 自然言語処理分野.
2019年 4月~2023年 3月 理化学研究所 特別研究員.
2023年 4月~2024年 3月 理化学研究所 研究員.
2024年 4月~  国立情報学研究所 助教.
大規模言語モデルおよび実世界におけるマルチモーダル理解モデルに関する研究に従事.
9:50-10:10 講演(2) 【タイトル邦題】 隠測灯:人には見えない偏光構造化光による物体の形状と反射特性の計測
市川 知樹(京都大学 大学院情報学研究科情報学専攻知能情報学コース 西野研究室 博士後期課程2年)
【原発表の書誌情報】 Tomoki Ichikawa, Shohei Nobuhara, and Ko Nishino "SPIDeRS: Structured Polarization for Invisible Depth and Reflectance Sensing", Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024.
【概要】 本研究では,人の目には見えない偏光で空間的なパターンを投影する,偏光構造化光を提案する.光の強度を用いる既存の構造化光と異なり,物体の見た目を変化させずに深度を測定するため,幅広い応用が期待できる.また,偏光の反射を利用して物体表面の法線と反射特性の推定も行う.実験では,画素ごとに偏光方向を制御できる偏光プロジェクタを実際に作成し,実世界の物体の形状復元と再照明を実現した.
【略歴】 2023年京都大学大学院情報学研究科修士課程修了.同年より同研究科博士課程に在籍,日本学術振興会特別研究員DC1.コンピュータビジョン,特に物理ベースビジョンの研究に従事.
10:10-10:30 講演(3) 【タイトル邦題】 画像検知モデルの信頼性テストに向けた高品質な敵対的サンプルを生成
Peifei Zhu(LINEヤフー株式会社)
【原発表の書誌情報】 Peifei Zhu, Genki Osada, Hirokatsu Kataoka, and Tsubasa Takahashi. Frequency-aware gan for adversarial manipulation generation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4315–4324, 2023.
【概要】 近年、生成AI技術の広がりに伴い、画像編集スキルを持たない人でも簡単にフェイクコンテンツを作成できるようになるなど、新たな脅威が増しています。偽物の画像を見抜くような検知モデルは多く研究されていますが、そうしたモデルは敵対的攻撃に対して脆弱な場合があります。本研究では、加工画像検知モデルの脆弱性を検証する敵対的攻撃タスクと敵対的サンプル生成方法を提案しています。
【略歴】 2014年早稲田大学大学院情報生産システム研究科修士課程修了.同年,日立製作所中央研究所に入社,研究員として勤務.2022年よりLINE株式会社,2023年より現職.コンピュータビジョン,機械学習に関する研究開発に従事.
10:30-10:50 講演(4) 【タイトル邦題】 Entity-NeRF: 都市シーンにおける動く物体を除去した静的なNeRF表現の学習
大隣 嵩(東京大学 大学院情報理工学系研究科電子情報学専攻相澤研究室)
【原発表の書誌情報】 Otonari, T., Ikehata, S., Aizawa, K.:Entity-NeRF: Detecting and Removing Moving Entities in Urban Scenes, Proc. IEEE/CVF Conference on Computer Vision and Pattern Recongnition (CVPR), 2024.
【概要】 本研究では、動く物体を含む画像からNeRFを使って静的な背景を再構築することを目指す。我々の提案するEntity-NeRFは、entity segmentationとthing/stuff segmentationを活用し、動く物体を効率的に判別・除去する。実験の結果、移動物体の除去と静的な都市背景の再構築で、既存の手法を大きく上回る性能を示した。
【略歴】 2024年、東京大学大学院修士課程を修了。同年、株式会社サイバーエージェントに入社。本研究は、修士課程の研究の一部として行ったものです。
10:50-11:10 講演(5) 【タイトル邦題】 マンハッタンワールド仮説における魚眼画像復元のためのヒートマップ回帰による深層単画像カメラ校正
若井 信彦(パナソニック ホールディングス株式会社 プラットフォーム本部 シニアエンジニア)
【原発表の書誌情報】 Wakai, N., Sato, S., Ishii, Y., Yamashita, T.: Deep Single Image Camera Calibration by Heatmap Regression to Recover Fisheye Images Under Manhattan World Assumption, Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 11884-11894 (2024).
【概要】 マンハッタンワールド仮説に基づく,魚眼画像から高精度なカメラの傾き推定は困難である.高い精度と頑健性を実現するために,姿勢推定と同様のヒートマップ回帰を用いる学習ベースのカメラ校正法を提案する.画像中の消失点が少ないことに対処するため,補助対角点を導入する.実カメラと大規模データセットで,提案法が従来法を上回る性能であることを検証した.
【略歴】 2014年東京大学大学院 新領域創成科学研究科 博士(科学)取得.同年,パナソニック株式会社に入社し,2022年よりパナソニック ホールディングス株式会社所属となる.深層学習を用いた画像認識・画像処理・データ分析の研究開発に従事.数学的な理論に基づく画像処理やデータ分析に関して幅広く取り組む.東京大学大学院 新領域創成科学研究科長賞(博士)受賞.