2P-8
ランダム行列理論を用いた大量文書クラスタリング
○郷治 雅,小林一郎(お茶の水女子大)
近年、ビッグデータ等と呼ばれる巨大で複雑な大規模データを効率的に扱うことが今後必要不可欠になると考えられている。
本研究では高次元データに対して有用であることが知られているランダム行列理論を用いて大量文書のクラスタリング精度を高めることを目的とする。
ランダム行列理論とは観測されたデータに含まれているノイズ、つまりデータ内の不要な部分を取り除き、新たに重要部分のデータを再構築する手法である。
このデータを用いてスペクトラルクラスタリングを行い、従来手法との精度を比較する。

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について