2U-04
Deformable Attention Transformerの単眼深度推定への応用
○石川泰暉,長名優子(東京工科大)
本研究では、Deformable Attention Transformerの単眼深度推定タスクへの応
用を提案し、学習時の計算量の削減と深度推定精度の向上を目指す。提案手法
では、バックボーンネットワークとしてDeformable Attention Transformerを
採用する。DATは、従来の注意機構を進化させたものであり、その特徴は
Attentionの重みを柔軟に調整できる点にある。これにより、Attentionの計算
を意味的に重要な部分同士に集中できるため、精度の向上や計算量の削減につ
ながることが期待される。次に、DATの出力を、多層パーセプトロンによって調整した次元に変換する。次元を調整する段階において、より高次元な表現を得ることで、より多くの特徴を捉え、情報の損失を最小限に抑えることが期待される。次に、MLPによって調整されたデータは、畳み込みニューラルネットワークに入力される。CNNは、特徴マップの学習に優れた能力を持つアーキテクチャであり、入力されたデータからさらなる特徴の抽出とパターンの学習を行う。最終的には、CNNによって処理されたデータから、深度マップの出力が得られる。この深度マップは、入力データにおける各ピクセルの深度情報を表現したものであり、提案手法の最終的な成果物となる。