情報処理学会 第87回全国大会

5X-09
FGIRにおける離れた部位間の関係性を考慮したTransformerモデルの構築
○益本英明,長谷川達人,坂井俊介(福井大)
Fine-Grained Image Recognition(FGIR)は,同一カテゴリ内の詳細なクラス識別を目的とするタスクであり,特定の部位への注視が必要なため,通常の画像認識と比べて識別が困難である.近年登場し,CV分野で革新を引き起こしたTransformerモデルは,FGIRにおいても既存の先行研究と同等の精度を達成しているが,従来の構造では高解像度を維持したまま,FGIR特有の課題である離れた部位間の関係性を十分に捉えることは困難である.本研究では,この課題に対処するため,離れた部位間の相関を効果的に捉える新しいTransformerアーキテクチャを提案し,その有効性を検証する.