6V-04
Vision & Language Modelにおけるユニモーダルの特徴間のアラインメントによるVQAの学習速度の改善
○高平 凜,楊 陽,小松瑞果,大川剛直(神戸大)
近年、画像とテキストのようなマルチモーダルデータを用いた深層学習技術が注目されており、例えば、物体認識やVQAのタスクに対しては、Vision&Languageモデルなどが提案されている。このモデルは、画像と関連テキストをデータとし、これらの特徴量をCross Attentionによって融合させることで、画像のみを扱う一般的なモデルでは得られない、複雑な情報を抽出することができる。 しかし、個々のモダリティデータはそれぞれ異なる統計的特性を持つため、特徴量を融合させるための学習に時間がかかるという問題点がある。そこで本研究では、融合する前に画像特徴と言語情報の関連度を上げておくことで、学習の収束を早めることを試みる。さらに提案手法の放牧管理作業への活用にも触れる。