情報処理学会第86回全国大会

画像キャプション生成は，画像を入力すると画像の内容を説明する文章（キャプション）を生成する処理である．この研究では，Transformerアーキテクチャを持つ事前学習済みのVision Transformer（ViT）を画像キャプション生成のためのエンコーダに採用した．ViTは，画像を細かく分割し，その特徴をTransformerによって抽出する特異的なアプローチを提供している．CNNを用いた画像キャプション生成モデルとViTエンコーダを導入したモデルを比較し，その性能を評価した．