4V-04
球面調和関数に基づく距離別分離音を用いた深層学習による近接音声分離
○西口草太(法大),小泉悠馬,原田 登(NTT),伊藤克亘(法大)
物理モデルと深層学習を組み合わせた新たな近接/遠方音声分離手法を提案する。一般的に、深層学習による音源分離ではディープニューラルネットワーク(DNN)を用いて時間-周波数(T-F)マスクを推定する。T-Fマスクを正確に推定するには真のT-Fマスクと強い相互関係を持つ音響特徴量が必要になる。一般的には各音声の声質や音韻の連続性の違いからマスクを推定する方法がとられている。しかし、似た声の話者音声に対しては分離性能が低下する。
本論文では球面調和関数に基づく近接音分離法により、低周波数領域の近接/遠方音を推定し、これを音響特徴量に加える。これにより似た声質の複数話者音声分離の性能を向上し、なおかつ球面調和関数に基づく手法では扱えなかった高域成分の分離を実現した。提案手法は球面調和関数に基づく手法に比べて分離音源の信号対歪率が6–8dB改善された。

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会