7X-07
画像キャプションの語順の変化がCLIPの認識に与える影響
○川村政貴,井口悠司,横田理央(科学大)
CLIP(Contrastive Language-Image Pretraining)は、画像とテキスト間のマルチモーダル学習において高い性能を示しており、多くのVLM(Vision Language Model)の基盤として利用されている。しかし、言語的な表現の柔軟性に対する感度については十分に評価されていない。本研究では、CLIPモデルにおける画像キャプションの語順変更が認識結果に与える影響について検証する。画像キャプションに対して意味が変わらないように保ちながら語順を入れ替える操作や言い換えを行い、その変更による画像検索タスクのスコアの変動を分析した。結果として、CLIPが言語的な表現の柔軟性を十分に考慮していないことがわかり、これは言語-画像対応の強化のためにはより高度な言語的理解を統合する必要性を示している。