情報処理学会ホームページ
FIT2014 第13回情報科学技術フォーラム 開催日:2014年9月3日(水)~5日(金) 会場:筑波大学筑波キャンパス 一般社団法人電子情報通信学会 情報・システムソサイエティ 一般社団法人電子情報通信学会 ヒューマンコミュニケーショングループ 一般社団法人情報処理学会 筑波大学
抄録
A-011
日本語テキストに対する検索指向符号化のための文法圧縮分割
正木拓也・笹川裕人・喜田拓也(北大)
本論文では,高い圧縮率と圧縮データへのアクセス性の高い符号化として,単語ベースの文字列圧縮手法に注目する.英文テキストデータは,単語毎にスペースを挟むことで既に分かち書きがされており,単語ベースの文字列圧縮を容易に適用できる.一方,日本語テキストデータは英文とは異なり,分かち書きされておらず,かつ1 文字当たり数バイトで表現される.したがって,単語ベースの圧縮を行うために,日本語テキストデータに対する分かち書き法について考察する.また,本論文で提案する分かち書き法を実装し,実際に日本語テキストデータを分かち書きし,単語ベースの文字列圧縮を行うことで既存の圧縮手法との圧縮率の比較を行う.