情報処理学会第85回全国大会

本稿では，ノイズ環境で人が話している動画から，その話者の音声と動画外の特定人物の音声の混合音を抽出する手法を提案する．近年，深層学習により多ドメイン情報処理技術が向上し，視覚情報を用いて動画内の話者の音声を抽出する研究は急速に発展している．しかし多くの場合，動画外の音声は一様に抑制されてしまう．本研究では，事前に収録した特定話者の音声を参照して，動画内の話者の音声と動画外の所望の音声を同時に抽出する枠組みを構築する．動画外の音声に対する時変注意機構と，動画内または動画外の音声を遮断する訓練方法により，推定精度の向上を図る．実験により，推定精度とモデルの軽量さの観点で提案手法の有効性を確認した．