5U-05
画像質問応答に基づくキャプション生成への取り組み
○杜 静怡,小林一郎(お茶の水女子大)
近年、画像キャプショニングにおいて、コントロールシグナルと呼ばれる情報を追加することでキャプション生成の内容を制御する手法が盛んに研究されている。一方で、画像質問応答(VQA)は、画像の内容に関する質問に対して正しい回答を導き出す手法であり、画像に対する質問というシグナルを与えることにより回答を出力する。本研究では、VQAの質問をコントロールシグナルとして、キャプションを生成する手法を提案する。
既存の MSCOCO および VQA v2 データセットに基づいて、2 つのデータセットに対して、手動で質問とキャプションの対応づけを行い、両者を結合し、新しいデータセットを取得し、このデータセットを使用してモデルを学習した。