情報処理学会第86回全国大会

本研究では、英語の講演動画から抽出した音声書き起こしと複数の画像を用いて、マルチモーダル機械翻訳の枠組みで言語横断字幕生成を行う。講演動画から抽出した画像には、発表者のみが写っているなど、発言内容に関係のない画像が多いという課題がある。これを解決するために提案手法では、複数の画像の中からテキストに最も類似した画像を選択して、マルチモーダル機械翻訳に使用する。実験の結果、画像を使わない比較手法やランダムに画像を選択する比較手法よりも、提案手法が高い性能を達成することを確認した。