情報処理学会第85回全国大会

1J-04

VITSを用いたTTS音声合成の性能評価

○青山柊惟，大島聡史，片桐孝洋，永井　亨（名大）

VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)は自然音声に匹敵する品質を持つことで知られているEnd-to-end TTSモデルである。本研究では、GPUスパコン上でVITSの性能評価を学習速度の面から行う。