4Y-07
構造化状態空間シーケンスモデルを用いた位置情報の長距離依存関係を利用したバイノーラル音声合成
○北村健太郎,伊藤克亘(法大)
構造化状態空間シーケンスモデル(S4)は、シーケンスモデリングにおいて長距離依存性を扱う技術革新で、特に音声処理で有効である。自己アテンションモデルの代替として、自動音声認識や音声合成に利用されている。本研究では、S4を基に、モノラル音声から両耳音声合成の新モデルを開発。このモデルは位置情報、両耳時間差、事前に学習された両耳音声を活用し、従来の方法と同等の品質で音声合成を可能にする。これはS4のシーケンスモデリング適用性の拡張を示し、条件付き音声合成にも適用可能であることを示唆している。