情報処理学会 第87回全国大会

1T-06
HiFi-GANを用いた日本語音声合成の品質向上
○髙林竜久斗,李 嘉誠,能登正人(神奈川大)
近年,深層学習を用いた音声合成技術が発展し,高品質な音声生成が可能となっている.特に,HiFi-GANは高速かつ高音質な音声生成モデルとして注目を集めている.しかしながら,日本語音声合成への適用においては,最適なハイパーパラメータ設定やデータ前処理方法の確立が課題である.本研究では,HiFi-GANを用いた日本語音声合成の品質向上を目的とし,音声データの前処理方法やモデルのハイパーパラメータ最適化を行う.また,日本語特有の発話特徴を考慮したメルスペクトログラム計算,学習率や損失関数の調整,モデルの構造改良などを通じて,音声の自然さや抑揚の再現性を向上させ,実用的な日本語音声合成システムの構築を目指す.