2N-4
大規模なXML類似検索のためのMapReduceによる並列化手法の提案
○TuanDat Vu,渡辺陽介,横田治夫(東工大)
最近、企業や組織においてOffice Open XML, XHTMLなどで記述されたXMLファイルが多く利用され、複数のXMLファイルの中から類似したXMLファイルを取り出すことが重要になっている。既存の高速の類似度計算アルゴリズムLAXがあるが、それでも膨大なデータに対して処理時間がかかる。そこで本稿では、大量のXMLファイルに対応するため、MapReduceフレームワークを用いてLAXを並列化する。LAXではXMLの部分木に含まれる同じ値を持つリーフノードのカウントによって文書の類似度を判定する。そのため、提案手法ではXMLのリーフノードのデータをkey、そのkeyを含む部分木をvalueとし、MapReduceによって部分木を集計し、並列化を行う。また、実際のXMLファイルを利用して提案手法を評価する。

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について