4S-07
話速モデル化に基づく自然なボイスクローニングの実現
○秦 哲,伊藤克亘(法大)
ボイスクローニングというのは、話者の特徴を抽出することで、話者の声で話すTTSを生成する技術である。先行研究でのボイスクローニングでは、入力する音声を増やすことでより自然な音声を生成することができる。または、短い音声から、より硬い感じがする音声を生成することができる。私が研究しているのは、話速のモデル化方法を検討し、短い音声から、特徴を抽出することで、より良い効果を求めることである。