抄録
F-020
アクセスパターンのクラスタリングによるWebログからのユーザ属性推定
○佐藤 哲(NHNテコラス)
Webのアクセスログは,ユーザについての豊富な情報が含まれていると考えられるが,多くのユーザのアクセスが混在して記録されていたり,不必要な情報も多い,データサイズが大きいなどの理由で,マイニング方法が問題になっている.
そこで本発表では,Apache Sparkを用いた分散処理,アクセス時間やアクセス先などを抽出する前処理,アクセスパターンの類似度によるクラスタリングの導入により,問題を解決する手法を提案する.