1Q-03
種々のデータ圧縮手法に基づく分類器の設計および性能解析とそれらの多言語Tweets分類への応用
○王 駿キ,延原 肇(筑波大)
言語固有の文法等の影響を受けず、どのような言語で記述されたテキストにも適用できる分類を、データ圧縮に基づき行う手法が注目されている。本研究では、この手法の適用分野として、ソーシャルメディア、特にTwitterを取り上げ、日本語、英語、フランス語、ドイツ語およびスペイン語を取り扱う。本研究では、データ圧縮手法として、deflate, gzip, bzipを採用し、さらに1次経験エントロピーも新たに比較の対象として加える。また、Twitterで応用可能な条件を把握するため、特定な話題のハッシュタグを用いて、数十万件のtweetsのデータセットを対象に分類実験を行い、適合率と再現率の観点から各手法の分類性能及びテキストの長さと分類精度の関係を考察する。

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について