5R-09
発話速度による話者埋め込みによるボイスクローニングの改善
○秦 哲,伊藤克亘(法大)
Transformerベースのduration modelを用いることで抽出した特徴量をTTSモデルに組み合わせことで、5秒から20秒までの音声を利用するボイスクローニングシステムの性能を向上します。