情報処理学会 第86回全国大会 会期:2024年3月15日~17日

5R-06
End-to-Endモデルに基づく混合感情の音声合成に関する検討
○TIANYI LI,小坂哲夫(山形大)
 最近、VITSなどE2EのTTSモデルが提案され、従来の2段階モデルよりも優れた性能を示している。この進歩により、より表現豊かなTTSの研究が進展し、その中で混合感情のTTSが注目されている。先行研究では、エンコーダデコーダベースの混合感情TTSモデルが提案されたが、E2Eモデルの検討は十分になされていない。
 本研究では、VITSをベースに、線形結合を用いた混合感情の音声合成と主観評価実験を行った。一方、音声感情認識から抽出した感情ベクトルの汎用性についても検証した。その結果、感情ベクトルは高い汎用性を持ち、線形結合により合成した混合感情の音声は人間の直観に類似していることが確認された。