情報処理学会第85回全国大会

近年, 深層学習の発展により, テキスト音声合成(TTS)は大きく進歩している.
実際にソフトウェアに搭載する音声合成システムには, 単にTTSを行うだけでなく, 多彩な表現が可能かつ, 高速に動作することが求められる.
そこで, 既存ソフトウェアの派生ソフトウェアとして, 音声や表現を調整可能なテキスト音声合成システムを搭載したSHAREVOXを開発, リリースした.
この論文では, 多彩な表現を持ったまま, より自然な音声合成を実現するにあたり, VAEやSource-Filterモデルの導入, 推論の高速化のための並列計算モデルの導入など, 全体的なモデルの改善, 検討を行う.