情報処理学会 第87回全国大会

1T-01
音声中の音声検索語検出における3種の自己教師あり学習モデルの導入
○長瀬聖斗,小嶋和徳,有賀智広(岩手県大),李 時旭(産総研),伊藤慶明(岩手県大)
本研究は、音声中の音声検索語検出において、自己教師あり学習(SSL:Self-Supervised-Learning)を導入することで精度向上を目指すものある。本研究ではSSLにCTCを追加し、CTCの出力層の直前から音素や音節などの事後確率ベクトルを抽出しPosteriorgramを作成する。本稿では、高い単語認識率を示したwav2vec2、HuBERT、WavLMの3種のSSLから作成したPosteriorgramを用いてPosteriorgram照合を行い検索精度向上を図った。これにより、NTCIRの評価セットにおいて92%を超える検索精度を実現した。