FIT2016 第15回情報科学技術フォーラム 開催日:2016年9月7日(水)~9日(金) 会場:富山大学キャンパス
抄録
J-011
固定長バイト列一次元スペクトルを利用した高速言語判別法
高野 凱・中平勝子・北島宗雄(長岡技科大)
高度情報化社会における情報取得の可否は,知る権利の観点で重要である.現存する6000超の言
語のコンピュータ表現は,音写,代替表示,言語固有の文字コード等の形式で段階的に表現され
るが,その実現度は全言語の10%程度に過ぎない.ユーザが日常的に使用している言語での情報
取得の可否の実態を知ることは重要である.本稿では,インターネット空間における言語間格差
の実態調査のための,分光法を応用した高速な言語判定エンジンの開発を行う.テキストの固定
長バイト系列を物理的観測量,頻度を強度に対応させ,言語毎の教師データとの相関を求めるこ
とで言語判定を行う.主要特徴点から順次照合を行うことで,判別速度の向上を図る.