5L-06
Webサイトを意味的内容の一致度合により分類する手法の検討
○吉田奏子,寺澤卓也(東京工科大)
キーワード検索では、キーワードをもとに検索エンジンが選んだWebページが順番に表示されるが、必ずしも上位に表示されるページに自分が欲しい情報が載っているとは限らない。また、同じような内容の別のページが検索上位に集中すると、その下にある別の内容のページが見つかりづらくなる可能性がある。これを改善するためには、似たような内容のページをグループ化して表示できれば良いと考えた。
本研究では、技術系の解説Webページを対象に、文章、図、表、プログラムの4点で類似度判別を行い、類似度の高いページ同士をグループ化することを目指した。現段階では、文章についてはdoc2vecを利用することにより類似度の比較ができる見通しが立っている。

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会