情報処理学会 第86回全国大会 会期:2024年3月15日~17日

5R-09
発話速度による話者埋め込みによるボイスクローニングの改善
○秦  哲,伊藤克亘(法大)
Transformerベースのduration modelを用いることで抽出した特徴量をTTSモデルに組み合わせことで、5秒から20秒までの音声を利用するボイスクローニングシステムの性能を向上します。