情報処理学会第88回全国大会

本研究では，自然音声・機械音声モデルのマージにより，人間的な自然さと機械らしさを双方向に制御可能な音声合成手法を構築する．近年の音声合成技術は高い自然性を実現している一方で，ロボット音声や案内放送など，意図的に機械的特徴が求められる場面も存在するが，これらの音声スタイルを連続的に調整できる手法は十分に検討されていない．本稿では，Style-BERT-VITS2の日本語モデルをベースとして，人間らしさ／機械らしさを学習した特徴空間で内挿するモデルマージを提案する．本手法により得られた音声について，客観評価及び主観評価実験を通じ，自然さと機械らしさを連続的に制御可能かを検証する．