情報処理学会第86回全国大会

近年，動画投稿サイトやSNSの流行，スマートフォンの性能やAIの精度の向上に伴って音声を編集する機会が一般ユーザーでも増えている．その際，音声に音楽が含まれていると問題が生じることがある．しかし，音声中の音楽を元の音源を使用せずに除去することは現状困難である．そこで，本稿では音楽と様々な種類の音が混合した音声から音楽のみを除去することを目的とする。NMFを基にした深層学習を用いて，環境音と音楽の混合音から音楽を除去するモノラル信号を対象としたシミュレーションを行なった．その結果，ある程度の音楽の低減が確認できた．今後の予定としては，音楽除去の精度の向上のためネットワーク構造の改善を検討する．