FIT2020 第19回情報科学技術フォーラム

抄録

E-002
空間スペクトルを用いた音声強調のための教師あり時間周波数マスク推定

◎市村匡輝・武田　龍・駒谷和範（阪大）

音声強調手法のひとつに，時間周波数マスクに基づくビームフォーマがある．この強調性能とマスクの推定精度には相関関係があり，その推定精度は音源の種類や音の到来方向に依存する．本研究では，従来用いられるスペクトル特徴量の他に，周辺の音響環境を表す特徴量を加えてマスクを推定する．具体的には，方向ごとの音の到来可能性を表す空間スペクトルを加え，深層学習による推定を行う．有効なネットワーク構造を検討するため，基本的な全結合ネットワークと画像処理的なアプローチであるU-Netを比較する．インパルス応答を用いて再現した，到来方向の異なる2音源の混合信号に対して，空間スペクトルの有無による音声強調性能の変化を評価する．

A	モデル・アルゴリズム・プログラミング
B	ソフトウェア
C	ハードウェア・アーキテクチャ
D	データベース
E	自然言語・音声・音楽
F	人工知能・ゲーム
G	生体情報科学
H	画像認識・メディア理解
I	グラフィクス・画像
J	ヒューマンコミュニケーション＆インタラクション
K	教育工学・福祉工学・マルチメディア応用
L	ネットワーク・セキュリティ
M	ユビキタス・モバイルコンピューティング
N	教育・人文科学
O	情報システム