3N-8
大規模 XML データにおける効率的な重複データ検出
○小柳涼介,天笠俊之,北川博之(筑波大)
現在Web上には膨大な情報が溢れているが,中には内容が大きく類似している情報も多数存在している.
膨大な情報からある文書との類似度を効率的に計算することができれば,重複部分候補の検出を行うことができ,
引用,盗用の検出や重複除去等様々な用途に活用できると考えられる.
XMLは構造的情報や意味的情報を格納した文書データである.XMLの持つ情報をうまく活用して類似度を計算することができれば,
単純なテキストデータの類似度を計算するよりもさらに高度な結果が得られる.
本研究では,XMLの木構造とテキストノードのラベルの情報を利用して類似度を計算し与えられたXMLとの重複部分を検出する手法を提案する。

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について