4R-7
助詞を含む固有名詞の形態素の頻度情報による抽出
○木村 徹,古宮嘉那子,小谷善行(農工大)
商品名などの固有名詞は毎年多く生まれるが, 新聞記事などから
コーパスや辞書を作成・整備するには時間や人手が多くかかる.
固有名詞抽出には様々な手法が既に存在しているが, 助詞を含む
固有名詞を対象とした抽出手法は少ない. そこで, 形態素列の先
頭の形態素と末尾の形態素の頻度に注目した固有名詞抽出を行う
手法を提案する. 提案手法では形態素列を先頭の形態素と先頭以
外の形態素, 末尾の形態素, 末尾以外の形態素の4つの要素に分け,
形態素列の頻度を各要素の頻度で割ることによりスコア付けを行
う. 実験データとしてマイクロブログを利用し, 形態素3-gram・
4-gramの場合における提案手法による精度は28%であった.