FIT2016 第15回情報科学技術フォーラム 開催日:2016年9月7日(水)~9日(金) 会場:富山大学キャンパス
抄録
F-020
アクセスパターンのクラスタリングによるWebログからのユーザ属性推定
佐藤 哲(NHNテコラス)
Webのアクセスログは,ユーザについての豊富な情報が含まれていると考えられるが,多くのユーザのアクセスが混在して記録されていたり,不必要な情報も多い,データサイズが大きいなどの理由で,マイニング方法が問題になっている.
そこで本発表では,Apache Sparkを用いた分散処理,アクセス時間やアクセス先などを抽出する前処理,アクセスパターンの類似度によるクラスタリングの導入により,問題を解決する手法を提案する.