5U-05
時間的・周波数的特徴を考慮したU-Net型マスク推定モデルによる元音源不要な音楽除去
○小澤 俊,小河誠巳,神戸英利(電機大)
AIを活用した音声編集技術が広く利用されるようになり,著作権保護の観点から音楽除去ツールも登場している.機械学習を用いた音声処理の研究では,特に音楽に関して楽器の分離手法が発展している一方で,混合音から,除去対象の音源がない状況で音楽のみを除去する手法は未だ確立されていない.本研究では,音声信号から音楽を除去し,環境音など他の成分を保持する音楽除去のためのネットワークモデルを提案する.音楽特有のリズムやメロディ,ハーモニーといった要素を時間的および周波数的特徴として捉えることを意図してモデルを設計した.その結果,SDR約5dBの除去精度が得られ,提案モデルが一定の効果を示すことが確認された.