2M-06
テキスト及び構造に基づいた類似部分木検索
○溝上拓也,天笠俊之,橋本武彦(筑波大)
ユーザが与えたクエリ木に対して、データベース木に含まれる全ての類似した部分木を見つける処理を類似部分木検索と呼ぶ。類似部分木検索は、重複検出やデータ統合など様々な応用が考えられる。
これまでの類似部分木検索の研究では、木編集距離といった構造に基づく類似度や、ジャカード係数、単語の同義語規則、知識ベースの階層上の近さといったテキストに基づく類似度が用いられてきた。既存の類似度尺度では、テキストデータの文脈が考慮されていない。
本稿では、テキストの類似度として分散表現ベクトルを用いた類似部分木手法を提案する。提案手法と既存手法に対して、提案手法は大幅に高速でありながら、より優れた精度を実現する。