情報処理学会第85回全国大会

近年、画像キャプショニングにおいて、コントロールシグナルと呼ばれる情報を追加することでキャプション生成の内容を制御する手法が盛んに研究されている。一方で、画像質問応答（VQA）は、画像の内容に関する質問に対して正しい回答を導き出す手法であり、画像に対する質問というシグナルを与えることにより回答を出力する。本研究では、VQAの質問をコントロールシグナルとして、キャプションを生成する手法を提案する。
既存の MSCOCO および VQA v2 データセットに基づいて、2 つのデータセットに対して、手動で質問とキャプションの対応づけを行い、両者を結合し、新しいデータセットを取得し、このデータセットを使用してモデルを学習した。