抄録
E-004
Webからの知識獲得格差実態把握のための言語分布調査モジュール開発に向けた基礎調査
武田大河・中平勝子・北島宗雄(長岡技科大)
世界に現存している言語は6000超であるが,コンピュータ表現可能な言語は,その10%程度に過ぎない.この状況は,情報獲得におけるデジタルデバイドと捉えることができ,その状況把握には,多くの言語を判別可能な言語判定エンジンが必要である.本稿では,Web空間における情報表示手段の一つである文書データに着目し,文書がもつ言語情報をバイナリnグラムパタンによって解析し,次世代の言語判定エンジン設計に向けた課題抽出を行う.文書のバイナリパタンのnグラム分析を行い固有パタンを持つ/特定のバイナリパタンセットが固有である言語を特定し,本手法で判別可能な言語数を算出した.さらに,この判別方法における課題を抽出した.