情報処理学会ホームページ
FIT2014 第13回情報科学技術フォーラム 開催日:2014年9月3日(水)~5日(金) 会場:筑波大学筑波キャンパス 一般社団法人電子情報通信学会 情報・システムソサイエティ 一般社団法人電子情報通信学会 ヒューマンコミュニケーショングループ 一般社団法人情報処理学会 筑波大学
抄録
F-015
多クラスに対するピボットを用いた大規模データのk-meansクラスタリング
服部正嗣・青山一生(NTT)
大規模データを多クラスに分割する効率的なk-meansクラスタリング法を提案する.
典型的なk-meansクラスタリング法であるLloyd法を,距離の三角不等式を利用し高速化する方法にElkan法がある.Elkan法はオブジェクト数(N)と中心数(k<N)に対して距離格納用にO(N・k)の記憶容量を必要とするため,汎用計算機では大規模データを多クラスに分割することが困難であるという問題があった.
我々は,新たに少数(p<<k)のピボットを導入し,距離の三角不等式によるLloyd法に対する高速性と,小記憶容量O((N+k)p)を両立する。提案法の効率性を人工データと実画像データを用いて実験的に示す.