抄録
E-002
空間スペクトルを用いた音声強調のための教師あり時間周波数マスク推定
市村匡輝・武田 龍・駒谷和範(阪大)
音声強調手法のひとつに,時間周波数マスクに基づくビームフォーマがある.この強調性能とマスクの推定精度には相関関係があり,その推定精度は音源の種類や音の到来方向に依存する.本研究では,従来用いられるスペクトル特徴量の他に,周辺の音響環境を表す特徴量を加えてマスクを推定する.具体的には,方向ごとの音の到来可能性を表す空間スペクトルを加え,深層学習による推定を行う.有効なネットワーク構造を検討するため,基本的な全結合ネットワークと画像処理的なアプローチであるU-Netを比較する.インパルス応答を用いて再現した,到来方向の異なる2音源の混合信号に対して,空間スペクトルの有無による音声強調性能の変化を評価する.