抄録
F-015
Benfordの法則とテキストマイニングを融合した大学入試統計データ信憑性分析
戸﨑祐輔・鈴木孝彦・廣川佐千男・峯 恒憲(九大)
自然な数値データの集合について、最初の桁の分布が特定の分布になっていることBenfordの法則として知られている。これを使い、統計的数表データの不自然さを検出することができる。
 しかし、そのままでは、不自然な部分を特定し、その部分を言葉で説明することはできない。
 本稿では、表の各セルについて、行や列のタイトル、表の説明文中の単語を対応づけることで、セルを対象とする検索エンジンを構築した。検索条件を与えると、それを制約条件として部分的数値データが得られる。このデータの分布を検証することで、単語で表現される不自然な部分を発見できる。日本の私立大学の受験者数、入学者数、合格者数を対象に、提案手法の有効性を検証した。