情報処理学会第84回全国大会講演論文集

1R-06

会話音声から句読点付きテキストの End-to-End 認識

○野崎樹文（京大），石塚賢吉，橋本泰一（RevComm），河原達也（京大）

一般に音声認識システムの出力するテキストには句読点が含まれていない。これは音声認識結果の可読性を下げる要因の一つである。また、機械翻訳や自動要約などの後続の自然言語処理タスクへの入力として望ましくない。本研究では、音声を入力として句読点の付いたテキストを End-to-End に認識するモデルを提案する。これにより音響情報を使用しながら、音声認識誤りに対して頑健に句読点を予測することを目指す。評価実験は日本語と英語のデータセットを用いて行い、提案モデルの有効性を示す。さらに、BERTを用いて音声認識結果のテキスト情報のみから句読点を予測する従来のシステムとの性能を比較する。