情報処理学会第88回全国大会

本研究では、大規模音声データに対するSpoken Term Detection（STD）において、従来手法と比較し、検索時間とメモリ使用量を維持しつつ高い精度を達成する手法を提案する。提案手法では、事前に全音素3-gramと各発話の距離をフレーム単位で計算し、距離と出現位置の上位候補のみを保持する発話軸インデックスを構築する。これにより発話内の時間的順序を考慮した近似距離計算が可能となり、クエリ入力時には保持した距離を参照するだけで高速検索が行える。さらに、従来手法で必要であったCDPによる再照合を行わずに、フレームレベル照合と同等の精度を維持する。評価には、10,000時間以上の音声を用いた。