情報処理学会ホームページ
FIT2014 第13回情報科学技術フォーラム 開催日:2014年9月3日(水)~5日(金) 会場:筑波大学筑波キャンパス 一般社団法人電子情報通信学会 情報・システムソサイエティ 一般社団法人電子情報通信学会 ヒューマンコミュニケーショングループ 一般社団法人情報処理学会 筑波大学
抄録
D-001
構造情報の再利用によるXMLデータに対する類似検索の高速化
小柳涼介・天笠俊之・北川博之(筑波大)
現在Web上には膨大な量のXMLデータが存在しているが,中には類似したデータが異なる情報源に複数存在することがある.
類似データの検出は,重複削除やコピー検出,情報の相互補完などに活用できる重要な問題である.
XMLデータを対象とした類似検索は今までにも多くの研究がされており,中でも木編集距離を類似度指標とする手法が代表的な手法として挙げられる.
本手法はXMLデータが持つ構造的特徴を利用することで,従来の手法に比べより高速に木編集距離計算を行う.
さらに,木編集距離に加えてテキストの類似度も考慮し,対象となるXMLデータの特徴に合わせた類似度指標で類似検索を行う.