情報処理学会第87回全国大会

近年，深層学習を用いた音声合成技術が発展し，高品質な音声生成が可能となっている．特に，HiFi-GANは高速かつ高音質な音声生成モデルとして注目を集めている．しかしながら，日本語音声合成への適用においては，最適なハイパーパラメータ設定やデータ前処理方法の確立が課題である．本研究では，HiFi-GANを用いた日本語音声合成の品質向上を目的とし，音声データの前処理方法やモデルのハイパーパラメータ最適化を行う．また，日本語特有の発話特徴を考慮したメルスペクトログラム計算，学習率や損失関数の調整，モデルの構造改良などを通じて，音声の自然さや抑揚の再現性を向上させ，実用的な日本語音声合成システムの構築を目指す．