1C-04
字種分割ツールの開発と公開
○赤木信也(NTTデータ先端技術)
日本語文は分かち書きされないため、文章解析では, 何らかの手法で文字を分割する必要がある. 現在では, MeCabを用いた統計的形態素分割を実施することが主流となっているが, 古くは, 字種分割という文字種単位の文字分割方法も検討されており, 可読性分野においては, 字種分割に基づいた可読性評価指標を開発する研究が存在している. しかし, 字種分割そのものに関する文献やツールは皆無であり, その有用性や課題については未整理となっている. そこで, 本研究では, 主に可読性分野に資することを目的として, 字種分割ツールの開発と公開を実施し, 有用性と課題の分析を行った結果を報告する.