情報処理学会第83回全国大会講演論文集

6N-02

句読点を同時予測する End-to-End 音声認識

○野崎樹文，稲熊寛文，河原達也（京大）

音声認識システムの出力するテキストには一般に句読点が含まれていない。これは音声認識結果の可読性を下げる要因の一つであり、また、機械翻訳などの後続の自然言語処理タスクへの入力としても望ましくない。本研究では句読点の付いた音声認識結果を一つのモデルで直接出力可能なシステムを提案する。具体的には Transformer の枠組みを使用して句読点を同時に予測する音声認識システムを実現する。これにより音響情報を使用しながら、音声認識誤りに対して頑健に句読点を予測することを目指す。さらに、従来のテキスト情報のみから句読点を予測するシステムとの性能を比較する。