4R-05
原言語テキストを補助入力とするTransformer同時通訳音声認識における大規模機械翻訳コーパスを用いた事前学習の検討
○谷口秀太,加藤恒夫,田村晃裕(同志社大),安田圭志(マインドワード)
同時通訳の音声認識は,フィラーや言い淀み,言い直しが含まれるため簡単ではない.筆者らは同時通訳の音声認識のために,原言語テキストを補助入力とするTransformer音声認識を提案してきた.これまで,提案モデルの学習に必要となる大規模な音声・書き起こし・原言語テキストの三つ組データとして,音声翻訳開発用のMust-Cコーパスを転用してきたが,原言語テキストエンコーダの学習用コーパスとしては十分でなかった.そこで,より大規模な機械翻訳開発用のWMTコーパスを用いて提案モデルの事前学習を行った.実験の結果,同時通訳音声認識においてWERを0.7ポイント削減した.