1N-4
編集距離を組み込んだWrapperによる類似タグ構造を持つ情報の抽出
○坪島恭平,大和田勇人(東理大)
近年インターネットの発達によってWeb上に膨大な量の情報が存在するようになった.
それによりユーザは自由に情報を得られるようになった一方で,ユーザにとって必要な情報のみを得ることは時間と手間を要するようになった.
そこで,本研究ではHTMLなどのWebページから特定の情報を自動的に抽出するための,ページレイアウトを利用した抽出ルール及び抽出プログラムであるWrapperに着目している.
そして,編集距離を組み込むことでWebページの構造の類似性を求め,構造に着目したWrapperを生成し,自動的に特定の情報を抽出する手法を提案する.
これによりページレイアウトが異なるサイトにおいても同様に必用な情報のみを抽出することが可能である.