4S-08
SHAREVOX -多彩な表現が可能なテキスト音声合成ソフトウェアの開発とモデルアーキテクチャの改善-
○芦田裕飛,寺内健人,本部勇真,柳井啓司(電通大)
近年, 深層学習の発展により, テキスト音声合成(TTS)は大きく進歩している.
実際にソフトウェアに搭載する音声合成システムには, 単にTTSを行うだけでなく, 多彩な表現が可能かつ, 高速に動作することが求められる.
そこで, 既存ソフトウェアの派生ソフトウェアとして, 音声や表現を調整可能なテキスト音声合成システムを搭載したSHAREVOXを開発, リリースした.
この論文では, 多彩な表現を持ったまま, より自然な音声合成を実現するにあたり, VAEやSource-Filterモデルの導入, 推論の高速化のための並列計算モデルの導入など, 全体的なモデルの改善, 検討を行う.