
抄録
D-015
LDAによる有意なトピック分析が可能な文書集合の量的な考察
◎古澤昂典・冨浦洋一(九大)
トピック分析に使われる統計モデルであるLatant Direchlet Allocation(以下LDA)で有意なトピック分析が出来る文書量について調査する.Gibbs Sampling による統計モデルのパラメタ推定では,生成した各サンプルから推定されるパラメタ値の標本平均をパラメタの推定値とする.Gibbs Sampling に基づくLDAではトピックは単なる番号であり,文書毎の各トピックの発生確率を表すパラメタの事前分布はトピックに関して対象である.また,トピック毎の各単語の発生確率を表すパラメタの事前分布もトピックによる違いはない.このためGibbs Sampling に基づくLDAでは,文書集合のサイズ(延べ単語数)が小さい場合,有意なトピック分析ができない可能性がある.本研究では,LDAが仮定する統計モデル(各パラメタはその事前分布に従ってランダムに設定)から文書集合を生成し,Gibbs Sampling を用いてパラメタ推定を行ない,文書サイズのパラメタ推定の精度への影響を調査する.