情報処理学会第77回全国大会講演要旨

5P-02

混合音に対する音源分離の不確実性を考慮した同時発話音声認識

○板倉光佑，西牟田勇哉，坂東宜昭，糸山克寿，吉井和佳（京大）

本稿では，複数の発話を含む混合音に対する音源分離結果を一意に定めることなく同時発話音声認識を行う方法について述べる．人間は複数の人から話かけられた時に，脳の中で単独発話音声信号を復元しているわけではないが，直接単語を聞き取ることが可能である．従来の同時発話音声認識システムでは，音源分離を行ったのちに独立した処理として音声認識を行っており，認識精度に限界があった．この問題を解決するため，本研究では，分離音声の不確実性を確率的に取り扱うことで分離音声をベイズ的に積分消去することにより，混合音を直接認識することができる方法を提案する．実験の結果，提案法により認識率が向上することを確認した．

情報処理学会 第77回全国大会講演要旨

情報処理学会第77回全国大会講演要旨