情報処理学会ホームページ
FIT2013第12回情報科学技術フォーラム 開催日:2013年9月4日(水)~6日(金) 会場:鳥取大学鳥取キャンパス
抄録
E-014
クラメールの連関係数を援用した類似文書検索の評価
槫松理樹(岩手県大)
クラメールの連関係数に基づく文書類似度計算方法を提案し従来手法との比較検証を行った.利用する語句の切り出し方法として,形態素解析,N-gram,辞書にある語句との最長一致,文字種区切り,文書間の類似度計算には,クラメールの連関係数のほか,文書ベクトルによる方法も用いた.これらの組み合わせにより文書類似度を,同一の文書集合に対して算出し,実務者側で行った人の評価と比較した.クラメールの連関係数を用いた手法は従来手法よりも劣ったが.結果を踏まえ,有用な利用方法を検証した.