6T-8
共起ネットワークを用いたクラスタ性によるテキスト分類
○小林雄太,村上裕一,中村真吾,橋本周司(早大)
近年膨大なテキストから有用な情報を抽出するテキストマイニングの研究が盛んに行われている。
しかしながら、単語の出現頻度やその相関関係を解析するものが多く、
文章の書き方や傾向といったテキスト構造に着目したものは少ない。
本稿では、共起ネットワークによるクラスタ性という指標を用い、
文章構造に着目したテキストの比較・分類手法を提案する。
具体的には、単語の繋がりを共起ネットワークによりグラフ化し、
ノードとなる単語にtf-idf法によって重みを与え、
複雑ネットワークの閾値モデルにおけるクラスタ係数を変化させる。
そして、その閾値とクラスタ係数の関係のピーク閾値に着目することでテキストの分類を行う。