情報処理学会第85回全国大会

本研究では，画像に対し大喜利を生成する人工知能を作成する．画像を入力とし，文章を出力とするPix2Seqでは，画像の特徴抽出器として事前学習済みの大規模画像認識モデルを使用する方法が一般的である．しかし, この方法を用いる際，事前学習時の画像と実際に使用する画像に乖離がある場合，画像の特徴を抽出できない場合がある．この問題に対し, 事前学習済みモデルに実際に使用する画像を際学習する方法があるが，この場合画像に対しアノテーションが必要になるという難点がある．この問題に対し，本研究では，学習時に画像に対しアノテーションを必要としないAutoEncoderを事前に学習し，AutoEncoderのエンコーダをPix２Seqのエンコーダとして用いる新たなアーキテクチャを使用する．