イベント企画
トップコンファレンス2-3 コンピュータビジョンとパターン認識1
2023/9/6 13:10-15:10
第6イベント会場
第6イベント会場
座長:大橋 洋輝(日立製作所)
13:10-13:30 講演(1) 【タイトル邦題】 Tangentially Elongated Gaussian Belief Propagation for Event-Based Incremental Optical Flow Estimation | |
長田 惇(デンソーアイティーラボラトリ ) | |
【原発表の書誌情報】 Jun Nagata*, Yusuke Sekikawa* (*equally contributed); Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023, pp. 21940-21949 | |
【概要】 輝度の変化の情報であるイベントデータから,局所的に推定した動きの情報を細長いガウス分布で表現し,信念伝播法によって周囲の画素に伝播させることで,非同期で低レイテンシなオプティカルフローアルゴリズムを実現した. | |
【略歴】 2020年慶應義塾大学大学院修士課程修了.同年、株式会社デンソーアイティーラボラトリに入社,慶應義塾大学大学院博士課程に進学.イベントカメラに関する研究に従事. | |
13:30-13:50 講演(2) 【タイトル邦題】 説明文生成を用いた動作行動予測 | |
中村 泰貴(東京大学 大学院情報理工学系研究科創造情報学専攻 猿渡・高道研究室 博士課程2年) | |
【原発表の書誌情報】 Nakamura, T., Kawano, S., Yuguchi, A., Kawanishi, Y., Yoshino, K.: Operative Action Captioning for Estimating System Actions, Proc. ICRA, 2023. | |
【概要】 本論文では,現在および理想状態をそれぞれ表す2枚の画像から,その画像間で生活支援システムがすべき行動を予測し,言語化するタスクを提案した.さらに,シーングラフ予測を補助タスクとした新たなモデルを提案し,高精度な動作行動予測の言語化を実現した. | |
【略歴】 2022年東京大学大学院情報理工学系研究科修士課程修了. 同年より同大学院博士課程に在学.Parakeet 株式会社代表取締役.2022年言語処理研究会にて優秀研究賞を受賞.理化学研究所ガーディアンロボットプロジェクトでのインターン中,本研究を実施. | |
13:50-14:10 講演(3) 【タイトル邦題】 構造化多重画像表現による自由視点画像生成と3次元シーン復元の統合 | |
Zhang Mingfang(東京大学 生産技術研究所佐藤研究室 ) | |
【原発表の書誌情報】 Mingfang Zhang, Jinglu Wang, Xiao Li, Yifei Huang, Yoichi Sato, and Yan Lu, "Structural Multiplane Image: Bridging Neural View Synthesis and 3D Reconstruction," IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2023) | |
【概要】 The Multiplane Image (MPI), containing a set of fronto-parallel RGBA layers, is an effective and efficient representation for view synthesis from sparse inputs. Yet, its fixed structure limits the performance, especially for surfaces imaged at oblique angles. We introduce the Structural MPI (S-MPI), where the plane structure approximates 3D scenes concisely. Conveying RGBA contexts with geometrically-faithful structures, the S-MPI directly bridges view synthesis and 3D reconstruction. It can not only overcome the critical limitations of MPI, i.e., discretization artifacts from sloped surfaces and abuse of redundant layers, and can also acquire planar 3D reconstruction. Despite the intuition and demand of applying S-MPI, great challenges are introduced, e.g., high-fidelity approximation for both RGBA layers and plane poses, multi-view consistency, non-planar regions modeling, and efficient rendering with intersected planes. Accordingly, we propose a transformer-based network based on a segmentation model. It predicts compact and expressive S-MPI layers with their corresponding masks, poses, and RGBA contexts. Non-planar regions are inclusively handled as a special case in our unified framework. Multi-view consistency is ensured by sharing global proxy embeddings, which encode plane-level features covering the complete 3D scenes with aligned coordinates. Intensive experiments show that our method outperforms both previous state-of-the-art MPI-based view synthesis methods and planar reconstruction methods. | |
【略歴】 Mingfang Zhang received the BSc degree from the Department of Computer Science and Technology, Nanjing University in 2020, the master’s degree from the University of Tokyo, in 2023. He is currently a PhD student with the Graduate School of Interdisciplinary Information Studies, the University of Tokyo. His research interests include computer vision and image processing. | |
14:10-14:30 講演(4) 【タイトル邦題】 音響情報を用いた人物3次元姿勢推定 | |
柴田 優斗(慶應義塾大学 大学院総合デザイン工学専攻青木研究室 学生) | |
【原発表の書誌情報】 Shibata, Y., Kawashima, Y., Isogawa, M., Irie, G., Kimura, A., Aoki, Y.: Listening Human Behavior: 3D Human Pose Estimation with Acoustic Signals, Proc. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 13323-13332 (2023). | |
【概要】 本研究では,1組のマイクとスピーカーを用いたアクティブ音響センシングにより,人間の3次元姿勢推定を実施する.非侵襲アクティブ音響センシングのベースラインとして,本研究では敵対的学習とマルチチャンネル音声特徴量を活用したフレームワークを紹介する. | |
【略歴】 2022年、慶應義塾大学理工学部電気情報工学科にて学士を取得。前年9月からEdingurgh Universityのschool of informaticsにて交換留学を実施。現在は慶應義塾大学大学院総合デザイン工学専攻青木研究室にてアクティブ音響センシングについて研究している。 | |
14:30-14:50 講演(5) 【タイトル邦題】 テキストからの画像生成の人手評価の検証可能性と再現性改善に向けて | |
大谷 まゆ(サイバーエージェント AI Lab リサーチサイエンティスト) | |
【原発表の書誌情報】 Mayu Otani, Riku Togashi, Yu Sawai, Ryosuke Ishigami, Yuta Nakashima, Esa Rahtu, Janne Heikkilä, Shin’ichi Satoh; Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023, pp. 14277-14286 | |
【概要】 本研究の目的は、画像生成モデルのための標準化された人手評価の手順を整備し、人手評価の検証可能性、および再現可能性を改善することである。また実験では、自動評価指標と人間の評価にある差異を明らかにする。 | |
【略歴】 2018年に奈良先端科学技術大学院大学情報科学研究科博士後期課程修了後、サイバーエージェント入社。コンピュータビジョン、機械学習に関する研究に従事。 | |
14:50-15:10 講演(6) 【タイトル邦題】 最適実験計画法に基づくセンサ選択に向けた非劣解に基づく多目的貪欲法 | |
中井 公美(産業技術総合研究所 エネルギー・環境領域 省エネルギー研究部門 研究員) | |
【原発表の書誌情報】 Nakai, K., Sasaki, Y., Nagata, T., Yamada, K., Saito, Y., Nonomura, T.: Nondominated-Solution-Based Multi-Objective Greedy Sensor Selection for Optimal Design of Experiments, IEEE Transactions on Signal Processing, Vol. 70, pp. 5694-5707 (2022) | |
【概要】 複数の目的関数を同時に考慮する多目的最適化問題の非劣解を求める貪欲法アルゴリズムを提案し,最適実験計画法に基づくFisher情報行列の特徴量を目的関数とするセンサ選択問題において,従来法に比べて高性能なセンサを獲得できることを示す. | |
【略歴】 2020年東京農工大学大学院工学府 機械システム工学専攻 博士後期課程修了.博士(工学).2017年より日本学術振興会特別研究員DC1,2020年より東北大学 大学院工学研究科 航空宇宙工学専攻 学術研究員,2021年より同特任助教を経て,2022年より現職.専門は流体工学,放電プラズマ工学. |