情報処理学会第88回全国大会

本論文では，視覚言語モデル(VLM)を用いた交通状況質問応答の自動評価の有効性を検証する。DriveLM データセットを用い，Phi-3.5 Vision Instruct と Qwen2-VL-2B により質問に対する回答を生成し，教師回答データとの意味的整合性をVLM-as-a-Judge フレームワークにより，それぞれQwen2-VL-7B とPhi-3.5 Vision Instructを用いて評価する。次に，VLM-as-a-Judgeの評価のために，生成回答と教師回答の整合性を人間が評価し，VLMと人間の評価の一致度を二次重み付きコーエンのカッパ係数で測定する。100 枚の画像を用いた実験では，前者のモデルの組で中程度の一致が見られた一方，後者のモデルの組ではわずかな一致に留まった。これら結果は，人間とVLM の判断の間に乖離が存在することを示しており，さらなる検討が必要であることが示唆される。