情報処理学会ホームページ
FIT2014 第13回情報科学技術フォーラム 開催日:2014年9月3日(水)~5日(金) 会場:筑波大学筑波キャンパス 一般社団法人電子情報通信学会 情報・システムソサイエティ 一般社団法人電子情報通信学会 ヒューマンコミュニケーショングループ 一般社団法人情報処理学会 筑波大学
抄録
D-048
Hadoopを用いた大規模日本語コーパスにおける可変長単語N-gram頻度計算手法
小笹哲哉・渋木英潔・森 辰則(横浜国大)
文脈に応じて必要な長さを用いるような可変長単語N-gramモデルを構築する際に必要な、可変長単語N-gram頻度は、Suffix Arrayを構築することで求めることができる。しかし、大規模な文章においては、Suffix Arrayの構築することは、主記憶容量や計算時間の面で難しい。そこで、本稿では、大規模な文章を効率的に扱うために、Hadoopを用いてMapReduceの枠組みでSuffix Arrayを並列分散して構築を行う。これを利用することによって、大規模日本語文章において、可変長単語N-gramの頻度を計算することを行う。