5C-1
文字列間の前処理付きオフライン全文検索エンジン類似度距離
○佐藤 哲(楽天)
検索エンジンを用いた汎用的な距離計算は,
良好で汎用的な類似度推定が可能な一方,
現実にWebサービスとして用いるには計算速度が遅い問題があった.
そのため,大規模なキャッシュを利用するなど計算を省略する
手法が用いられていたが,企業がサービスに採用するには
Webを利用するユーザの嗜好の多様化によりキャッシュ化等の
工夫にも限界があった.
そこで本研究では,キャッシュを利用しつつも,
本質的に問題となるデータ量の多さを対処することを考え,
前処理により検索対象となるデータを最適化することにより,
文字列間の類似度計算を高速化する手法を提案する.