情報処理学会 第84回全国大会 会期:2022年3月3日~5日 情報処理学会 第84回全国大会 会期:2022年3月3日~5日

5R-03
高品質なリアルタイム音声生成のための自己回帰型ニューラルポストフィルタの検討
○長沢一生,菅野由弘(早大)
深層学習技術の活用により、テキスト音声合成や音声変換などの音声生成システムの性能は近年大きく向上した。しかし、学習データが少ない場合や、複数話者の音声で学習を行う場合など、条件によっては依然として高品質な音声の生成は難しい。また、音声生成システムの運用において、品質向上のため、音声特徴量を生成するモデルの学習をやり直すことがあるが、これにより生成される音声のキャラクタ性が意図せず変化してしまう場合がある。本稿では、既存の音声生成システムの生成する音声に対し、自己回帰型のニューラルネットワークにより時間領域上で補正を行うことで品質を向上させることを検討する。