抄録
E-018
単語論理和での属性拡張による文書分類性能向上
廣川佐千男(所属なし)
同義語を同一視することで文書分類の性能する事が知られている。さらに共通の上位概念の単語群を同一視した属性の導入で、文書分類の識別性能が上がる事が知られている。二つの単語uとwの論理和u+wは、u,wの上位概念といえる。このような単語の論理和を導入する事で、文書分類の性能が向上すること事を、5種類の標準的データセット reuter21578, 20newsgroups, wap, k1a, k1bで示す。