7Q-08
HTML内の並列構造を利用したWebページ上のイベント情報抽出
○河村一希,竹内孔一(岡山大)
Webページには多数のイベント情報が掲載されているが,規模の小さい地域イベントは大手イベント掲載サイトには掲載されていないことが多い.そのため個別に検索する必要があるが,これらのイベントを自動的に抽出することで,イベント情報提供サービスの網羅性を高めることができる.そこで,本論文ではHTMLタグを用いたイベント名,開催地,開催場所,備考などのイベント情報抽出手法を提案する.HTMLの木構造とタグ名から木の類似度比較による抽出と,文字の表層や品詞,手がかり表現などを素性とするSupport Vector Machineによる抽出を行い,2手法の評価実験を行った.

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会