6Q-5
PageRankアルゴリズムを用いた重要文抽出による潜在的意味に基づく文書分類
○小倉由佳里,小林一郎(お茶の水女子大)
本研究では、PageRankを用いて潜在的な類似度と表層的な類似度を考慮した文書分類を行うことを目的とする。文書ごとのPageRankの値を計算する際に、潜在的なトピック分布の確率を事前確率として与える。クラスタリングは、対象文書が適切なクラスタ数の下に分類される必要があるが、これには文書内の潜在トピック数をクラスタ数とみなしパープレキシティを利用して求める。あるトピックの確率が大きく、PageRankの値が高い文書を中心性の高いノードとみなし、それをトピックの中心としてクラスタリングを行う。PageRankの距離を測る指標を導入し、文書分類の結果を考察する。

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について