情報処理学会第87回全国大会

画像や動画に対して適切なキーワードを付与することにより、画像・動画検索の効率が向上するが現状のユーザーによる手動のキーワード付与ではキーワードの豊富さに限界がある。この問題を解決するため、本研究ではVQAとLLM，および物体検出モデルを用いて画像から検索キーワードを自動生成する手法を提案する。提案手法では、VQAによる画像説明文をVQAに用いたLLMと異なるモデルによりその内容の真偽を検証することで画像を正確に説明するキーワードを抽出する。また、物体検出結果やVQAによる説明文の内容を踏まえて追加の質問をLLMにより生成しキーワード抽出を行うことで画像に対する多様なキーワードを生成する。提案手法により生成されたキーワードの真偽をアンケート調査により評価し提案手法の有効性を評価した。