情報処理学会 第88回全国大会

6Y-04
CLIPを用いた料理画像の味推定手法
○清沢優斗,陳キュウ(工学院大)
料理画像から味属性を推定することは、レシピ検索や食体験支援に有用であるが、従来研究は大量のテキスト情報を必要とし、味の抽象的概念を画像のみで捉えることが困難であった。本研究では、視覚と言語を統合して学習されたCLIPモデルに着目し、その画像エンコーダを用いた特徴抽出と、深層 MLP による味分類を組み合わせた効率的な味推定手法を提案した。実験では6種類の味カテゴリ(sweet, sour, spicy, salty, bitter, umami)に対し、ゼロショット推論を大きく上回る精度を達成し、学習データが少ない場合でも高精度な味推定が可能であることを確認した。これにより、食領域におけるCLIPを基盤としたマルチモーダル表現の有効性と拡張可能性を示した。