情報処理学会 第87回全国大会

5Q-02
英語テキストに含まれる単語の出現頻度に対する不定性の評価
○窪田 葵,田窪洋介(新居浜高専)
自然言語の普遍的な性質の代表的なものとしてZipf則がある。Zipf則は、テキスト中に出てくる単語の出現数が出現順位のべき乗に比例するという法則である。Zipf則のような言語モデルをデータとフィットし、その一致度合いを判定するためには、各データ点に付随する誤差を正確に見積もる必要がある。しかし、自然言語は人の思考や文法によるバイアスがあるため、単語の出現数はポアソン分布には従わないことから、その誤差の評価は単純ではない。本研究では、英語テキストに含まれる単語の出現数に付随する誤差(修正誤差)を評価した。そして、修正誤差を用いてZipf則とデータをフィットし、一致度合いを比較した。