7T-01
大規模マルチモーダルモデルを用いた広告画像レイアウトの評価と説明
○砂田達巳,塩原 楓(東大),劉 岳松,丹治直人,勢乄弘幸(Septeni Japan),山崎俊彦(東大)
本研究では、広告バナー画像の評価と自然言語による説明を行う。広告画像評価の研究では、クリック率を予測することで評価を行うことが多い。クリック率予測の従来研究では判断根拠の説明が画像中の重要度の可視化にとどまり、どのように評価しているかが不明瞭という課題があった。
本研究では、大規模マルチモーダルモデルに対してどのような観点で評価するかを誘導することで説明可能なクリック率の予測モデルを提案する。また、広告画像を編集して様々なレイアウトパターンのクリック率を予測することで、どのようなレイアウト要素がクリック率に寄与するのかを分析した。これによって、評価モデルの評価箇所と評価基準を明確にした。