情報処理学会第85回全国大会 会期:2023年3月2日~4日 会場:電気通信大学

1W-06
音声中の音声検索語検出におけるフレーム圧縮手法および複数の深層学習モデルのスコア統合による検索精度・検索速度・メモリ量の改善
○畠山和望,小嶋和徳(岩手県大),李 時旭(産総研),伊藤慶明(岩手県大)
音声中の音声検索語検出では,異なる深層学習モデルから算出された全事後確率ベクトル(Posteriorgram)を用いて照合を行い,得られる複数の照合スコアを線形和統合することで検索精度の向上を図るスコア統合方式が提案されている.この方式は単体の照合に要する検索時間やメモリ使用量が大きい場合に,統合時の検索時間とメモリ使用量も大きくなってしまう.そこで本稿では照合に用いるPosteriorgram中で類似しているフレームを圧縮するフレーム重複排除方式を提案する.これにより単体照合時の検索時間とメモリ使用量を削減し,スコア統合時の検索精度の向上をねらう.