(邦訳:高音質な統計的パラメトリック音声合成のための音響モデリング法と音声パラメータ生成法)
高道 慎之介 東京大学 特任助教 |
[背景]人と人,人とコンピュータの違いを超えた音声コミュニケーションを可能にしたい
[問題]人間の発する音声と比較して,人工的に合成した音声の品質が著しく悪い
[貢献]高品質テキスト音声合成と音声変換のための音響モデリングと音声パラメータ生成を提案・評価
音声合成技術は,人間・コンピュータまたは人間・人間コミュニケーションへの応用を目論んだ技術であり,本研究ではテキスト音声合成・声質変換を指す.任意のテキストから音声を合成するテキスト音声合成技術は,近い将来,実世界コミュニティの一員として振る舞うであろう人工知能の実装に必要とされ,また,ある音声を別の音声に変換する声質変換技術は,身障等の身体的制約を超えて人間の音声機能の拡張を可能にする.これらの技術により,人と人,人とコンピュータの違いを超越した音声コミュニケーションやコミュニティ形成が可能である.
機械学習と計算環境の発達により音声合成に対する多様な統計的手法が提案されており,機械学習に基づく柔軟な音声制御が可能になりつつある.一方で,これらの手法において合成される音声の音質は,自然音声と比較して著しく劣化する.その要因は,分析・生成部におけるパラメータ表現のエラー,学習部における不正確な音響モデリング,また,生成部における過剰な平滑化の3要因に分類されるが,本研究では特に,後者の2要因に焦点を当て,合成音声の音質改善に取り組む.
学習部における音響モデリングの問題点のひとつは,統計モデリングにおける平均化処理により,個々の音声波形の情報が消失する点である.これに対し本研究では,直接的に音声波形を利用する素片選択合成法の考えを導入する.提案法では,各音声波形の情報を,未知の入力情報に対して頑健な統計モデルとして保持し,さらに,複数の統計モデルから1つの混合モデルを構築する.これにより,従来の統計的音声合成の柔軟性を保持しつつ,より高音質な音声を合成可能となる.
次に,生成される音声パラメータの過剰な平滑化は,合成部における音質劣化の主要因である.この平滑化を定量化・補償することにより,過剰な平滑化の問題は緩和される.本論文では,過剰な平滑化を効果的に定量化する新たな特徴量として変調スペクトルを導入し,さらに,(1)合成音声方式に依存せず音質を改善できるポストフィルタ,(2)従来の合成基準との同時最適化による高音質パラメータ生成,(3)高品質かつ高速合成を可能にする音響モデル学習法を提案し,それぞれ有効性を確認した.特に,(2)を用いた合成音声は,テキスト音声合成の品質を競う国際ワークショップにて,世界最高品質であると評価された.
機械学習と計算環境の発達により音声合成に対する多様な統計的手法が提案されており,機械学習に基づく柔軟な音声制御が可能になりつつある.一方で,これらの手法において合成される音声の音質は,自然音声と比較して著しく劣化する.その要因は,分析・生成部におけるパラメータ表現のエラー,学習部における不正確な音響モデリング,また,生成部における過剰な平滑化の3要因に分類されるが,本研究では特に,後者の2要因に焦点を当て,合成音声の音質改善に取り組む.
学習部における音響モデリングの問題点のひとつは,統計モデリングにおける平均化処理により,個々の音声波形の情報が消失する点である.これに対し本研究では,直接的に音声波形を利用する素片選択合成法の考えを導入する.提案法では,各音声波形の情報を,未知の入力情報に対して頑健な統計モデルとして保持し,さらに,複数の統計モデルから1つの混合モデルを構築する.これにより,従来の統計的音声合成の柔軟性を保持しつつ,より高音質な音声を合成可能となる.
次に,生成される音声パラメータの過剰な平滑化は,合成部における音質劣化の主要因である.この平滑化を定量化・補償することにより,過剰な平滑化の問題は緩和される.本論文では,過剰な平滑化を効果的に定量化する新たな特徴量として変調スペクトルを導入し,さらに,(1)合成音声方式に依存せず音質を改善できるポストフィルタ,(2)従来の合成基準との同時最適化による高音質パラメータ生成,(3)高品質かつ高速合成を可能にする音響モデル学習法を提案し,それぞれ有効性を確認した.特に,(2)を用いた合成音声は,テキスト音声合成の品質を競う国際ワークショップにて,世界最高品質であると評価された.
(2016年5月9日受付)