2P-8
Suffix Array による可変長N-gramを用いた類似文字列検索
○木村光樹(東大),高須淳宏,安達 淳(国立情報学研)
従来,類似文字列検索においてN-gramはgramへ分割する大きさを固定していたが,近年はこの大きさを可変長に拡張することで探索コストをさらに削減するVGRAMという手法が提案されている.
しかしながら,VGRAMは可変長のgramへの分割は自動化されているが,gram長の上限値と下限値や分割するか否かの頻度の基準値といったパラメータを事前に決めなければならない.
これら3つのパラメータをチューニングする手間を考えるとVGRAMは実用的ではない.
そこで我々は,gramの長さに関するパラメータを必要としない,Suffix Array を用いた新しい可変長N-gramを提案する.