情報処理学会 第88回全国大会

6ZE-06
拍・アクセント・F0条件付きHiFi-GANによる日本語音声合成
○髙林竜久斗,李 嘉誠,能登正人(神奈川大)
近年,深層学習に基づく日本語音声合成では,メルスペクトログラムのみを条件とするボコーダが主流であり,拍・アクセント・基本周波数(F0)といった韻律情報を十分に活用できていない.本研究では,HiFi-GANを基盤とした波形生成モデルを構築し,拍・アクセント情報およびF0を明示的に条件付けた.評価には,単一話者標準語コーパスJSUT全体に加え,疑問文・長文発話など韻律的に難易度の高いサブセットと方言コーパスCPJDの一部話者を用いた.その結果,標準語およびサブセット条件でメル誤差やMCDが低減し,自然性と発話安定性の向上が確認され,方言話者に対してはF0条件付けがイントネーション改善に寄与する可能性も示唆された.