抄録
A-011
日本語テキストに対する検索指向符号化のための文法圧縮分割
◎正木拓也・笹川裕人・喜田拓也(北大)
本論文では,高い圧縮率と圧縮データへのアクセス性の高い符号化として,単語ベースの文字列圧縮手法に注目する.英文テキストデータは,単語毎にスペースを挟むことで既に分かち書きがされており,単語ベースの文字列圧縮を容易に適用できる.一方,日本語テキストデータは英文とは異なり,分かち書きされておらず,かつ1 文字当たり数バイトで表現される.したがって,単語ベースの圧縮を行うために,日本語テキストデータに対する分かち書き法について考察する.また,本論文で提案する分かち書き法を実装し,実際に日本語テキストデータを分かち書きし,単語ベースの文字列圧縮を行うことで既存の圧縮手法との圧縮率の比較を行う.