情報処理学会第88回全国大会

近年，深層学習に基づく日本語音声合成では，メルスペクトログラムのみを条件とするボコーダが主流であり，拍・アクセント・基本周波数（F0）といった韻律情報を十分に活用できていない．本研究では，HiFi-GANを基盤とした波形生成モデルを構築し，拍・アクセント情報およびF0を明示的に条件付けた．評価には，単一話者標準語コーパスJSUT全体に加え，疑問文・長文発話など韻律的に難易度の高いサブセットと方言コーパスCPJDの一部話者を用いた．その結果，標準語およびサブセット条件でメル誤差やMCDが低減し，自然性と発話安定性の向上が確認され，方言話者に対してはF0条件付けがイントネーション改善に寄与する可能性も示唆された．