情報処理学会第88回全国大会

音声強調における柔軟性の向上に向け、従来のターゲット話者抽出と距離ベース強調の課題を解決する統合手法を提案する。本研究は、音声認識タスク等において、登録済みのユーザーだけでなく未登録のユーザーにも対応可能な、柔軟な音声インタフェースの実現を可能にするものである。具体的には、登録時は話者特徴量を、未登録時は距離情報を手掛かりとして活用するため、話者情報の有無に応じて処理経路を最適化する分岐構造ニューラルネットワークを構築した。CSJとCHiME-3を用いた評価実験の結果、提案手法は登録済み・未登録の双方の条件下において適切に音声強調が行えることを確認し、その有効性を実証した。