1R-02
凝縮性に基づく注釈単語検出法とその評価
○小林えり,斉藤和巳,大久保誠也,池田哲夫(静岡県大)
本発表では,日々流通する文書ビッグデータから,重要かつ特徴的な話題の文書集合を自動検出し,適切な解釈語を付与する技術の確立を目的に,複雑ネットワーク分析に利用されるクラスタ係数概念を発展させた凝縮性と呼ぶ指標に基づく注釈単語検出法を提案する.
具体的には,クラスタ係数は,各ノードが隣接する任意のノードペア間にリンクが存在する期待値で定義されるのに対し,単語の凝縮性は、文書全体での平均類似度と比較し,その単語を含む(文書-単語の二部グラフで隣接する)文書ペア間の平均類似度が有意に大きいかのzスコアで定義する.
実験では,代表的な特徴語抽出法のTF-IDFやOkapiBM25と比較して,提案法の特性や有効性などを評価する.

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について