FIT2015第14回情報科学技術フォーラム 開催日:2015年9月15日(火)~17日(木) 会場:愛媛大学城北キャンパス
抄録
E-017
子供向けWebサイト収集のためのクローリング手法の検討
泉川洸一郎・安藤一秋(香川大)
新聞記事に出現する語句は小学生にとって難しいものが多く,新聞に出現する難しい語句を平易な表現に言い換える研究が進められている.新聞記事を言い換えるためには言い換え知識が必要である.小学生を対象とした言い換え知識の一つに小学国語辞典があるが,語彙数が少ない問題がある.本研究では,Web上の子供向けサイトに存在する平易な文を大量に収集することで「子供Webコーパス」を構築し,コーパスから言い換え知識を自動抽出する手法の実現を目的とする.本稿では,子供向けサイトをシードとしてクローリングを行い,大量の子供向けサイトを効率良く収集する手法について検討する.