7Q-02
複数スマートフォンで収録された会話音声の相互スペクトル減算を用いた話者決定
○小平優希(東京都市大),篠田浩一(東工大),岩野公司(東京都市大)
我々は,参加者各自が所有する複数のスマートフォンで録音された多人数会話音声に対し,各参加者の発声区間を推定(話者決定)する手法の提案を行っている.従来手法では,端末ごとに事前収録した所有者単独の発声を用いて各参加者の話者モデルを構築し,最尤モデル系列を探索することで話者決定を行っていた.しかし,実際の会話では他者音声の混入が生じるため,十分な話者決定性能が得られない.そこで本研究では,対象音声に「相互スペクトル減算」を適用して他者音声を低減し,話者モデルを再学習して話者決定に用いる手法を提案する.5セッションの雑談音声を用いて発声区間検出性能(F値)を評価したところ,提案手法により約6%の検出率の向上が確認された.

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会