7S-04
プロソディ特徴を考慮した感情豊かな音声駆動3D発話顔生成
○坂本翔之進,森島繁生(早大)
本稿では音声入力から感情豊かな発話顔を生成することを目的とする. 従来の手法では, 単一の感情ラベルを入力として与えるか, 表情の参照画像を入力として与えることで感情豊かな発話顔を達成している. しかし, 人間の表情の持つ感情の曖昧さや, 時間に対する感情の流動性の考慮が不十分である. この問題に対処するため, 本稿では, 音声から抽出された感情特徴による条件付けを提案する. 具体的には, 感情と関連の深い音声のプロソディ特徴を学習した追加の音声エンコーダを用いて, 曖昧な感情を持つ表情や時間変化する感情に対応した表情の生成を実現する. 最後に評価実験を通し, 提案手法の有効性を確認する.