情報処理学会第85回全国大会 会期:2023年3月2日~4日 会場:電気通信大学

1J-04
VITSを用いたTTS音声合成の性能評価
○青山柊惟,大島聡史,片桐孝洋,永井 亨(名大)
VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)は自然音声に匹敵する品質を持つことで知られているEnd-to-end TTSモデルである。本研究では、GPUスパコン上でVITSの性能評価を学習速度の面から行う。