7Y-03
視覚言語モデルを用いた交通状況質問応答の自動評価
○ミャッサン ポン,渥美雅保(創価大)
本論文では,視覚言語モデル(VLM)を用いた交通状況質問応答の自動評価の有効性を検証する。DriveLM データセットを用い,Phi-3.5 Vision Instruct と Qwen2-VL-2B により質問に対する回答を生成し,教師回答データとの意味的整合性をVLM-as-a-Judge フレームワークにより,それぞれQwen2-VL-7B とPhi-3.5 Vision Instructを用いて評価する。次に,VLM-as-a-Judgeの評価のために,生成回答と教師回答の整合性を人間が評価し,VLMと人間の評価の一致度を二次重み付きコーエンのカッパ係数で測定する。100 枚の画像を用いた実験では,前者のモデルの組で中程度の一致が見られた一方,後者のモデルの組ではわずかな一致に留まった。これら結果は,人間とVLM の判断の間に乖離が存在することを示しており,さらなる検討が必要であることが示唆される。