情報処理学会第86回全国大会

5R-09

発話速度による話者埋め込みによるボイスクローニングの改善

○秦　　哲，伊藤克亘（法大）

Transformerベースのduration modelを用いることで抽出した特徴量をTTSモデルに組み合わせことで、5秒から20秒までの音声を利用するボイスクローニングシステムの性能を向上します。