抄録
A-020
形態素解析と文法圧縮を利用した日本語テキストに対する圧縮手法の一検討
中村公美(阪大)・河野和宏(関西大)・馬場口登(阪大)
テキストのデータ量を削減しつつ圧縮したまま検索も可能な単語に基づくテキスト圧縮を,日本語のような単語毎に区切りがないテキストに適用する場合,何らかの手法を用いてテキストを区切る必要がある.これまでのところ,区切りのアプローチとして形態素解析を利用する手法,文法圧縮の一つであるRe-Pairを利用する手法が提案されているが,前者はテキストの圧縮率に改善の余地があり,後者は文節が正しくない可能性が残る.そこで本稿では,形態素解析を用いて単語毎に区切りした後,Re-Pairを用いて文法圧縮した上で符号化する.これにより,正しい文節で区切りされることから正確な検索を保証するだけでなく,テキストの圧縮率の向上も期待される.