情報処理学会ホームページ
FIT2013第12回情報科学技術フォーラム 開催日:2013年9月4日(水)~6日(金) 会場:鳥取大学鳥取キャンパス
抄録
D-028
高頻度語を可変長索引語に用いる類似文字列検索手法の検討
木村光樹(東大)・高須淳宏・安達 淳(NII)
類似文字列では,索引語は一般的に固定長のもの用いられることが多い.しかしながら,索引語長を固定すると,索引語長が短いときには,索引語数は少なくて済むが,短い部分文字列を共有する文字列は一般的に多くなるため,解候補を求めるのに時間がかかってしまう.逆に索引語長を長くすると,逆の問題が生じることが知られている.そこで,筆者らは索引語長を固定することで起こる問題を解決するために,索引語長を可変にすることを提案する.このとき,用いる索引語はデータセット中に出現する頻度が大きい部分文字列であるとし,この索引語を既存の類似文字列検索手法を適用するための手法を提案する.提案手法は,既存の可変長索引語と比べて索引付けの点で優位である.