情報処理学会第88回全国大会

COCOデータセットで学習された既存の物体検出モデルには、ぬいぐるみクラスが含まれず、最も近い「テディベア」クラスは典型的なテディベアに限定されるため、SNS上の多様なぬいぐるみ検出には適していません。Vision Language Modelsは高精度ですが、YOLOv7と比較して約140倍の処理時間を要し、大量のSNSデータ処理には不向きです。本研究では、YOLOv7のファインチューニングによるSNS上でのぬいぐるみ検出精度向上を目指し、背景の多様性に着目した分析を実施しました。実験の結果、背景の多様性が高いデータで学習したモデルは、多様性の低いデータにも適応できるものの、その逆は困難であることが確認されました。