6Q-2
OCR文書検索を想定した重み付きトピックモデルの検討
○田村一樹,吉川大弘,古橋 武(名大),鈴木 誠(ブラザー工業)
近年,スキャナの普及により,紙媒体の文書の電子化が急速に進んでいる.
本研究では,それらの電子化文書に対して,OCR(光学文字認識)を用いてテキスト情報を付与し,
得られる単語の情報から文書を分類・検索するシステムの構築を目指す.
潜在的ディリクレ配分法(LDA)は,単語の情報から文書に含まれる潜在的なトピックを高性能に推定できる手法として広く用いられているが,
一方でOCR などによる誤認識を含む文書において性能が低下するという報告がある.
そこで本稿では,単語N-gram頻度を用いた単語の重み付け手法を提案し,重み付きLDAに適用する.
分類実験の結果から,パープレキシティの上昇を抑えながら,文書の分類精度が向上することを示す.

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について