FIT2015第14回情報科学技術フォーラム 開催日:2015年9月15日(火)~17日(木) 会場:愛媛大学城北キャンパス
抄録
D-045
MapReduce上の編集距離結合における2段階ハッシュ分割技法の効果
大森 匡・今野篤人・新谷隆彦(電通大)
mapreduceモデルで類似結合を計算する算法は多く提案されているが算法固有のパラメタやデータ分布で性能特性が大きく異なることが知られている.著者らはDEIM2015において,mapreduce上の編集距離結合の既存技法の1つであるlandmark joinを題材にし,そのprefix-filtering技法に特有なレコードコピー量を制御してmap/shuffleコストの削減とreduce処理の効率化を行うため,2段階に分けたハッシュ分割戦略を2つ提案している.本稿では,そのうちの1つであるQ1/Q2分割法について述べ,評価を述べる.