6M-7
LSPCを用いた活字文書画像における頻出文字列抽出
○細谷拓史,寺沢憲吾(はこだて未来大)
ディジタルアーカイブの普及により、多くの文献史料がディジタル
画像として公開されている。このような多くの文献史料を扱う場合、
インデックスの作成、文章内容の推定などに頻出文字列を利用する
ことが有効である。そのため本研究では、文献史料から頻出文字列の
抽出を行うことを目的とする。手書きや活字などの形式、書体、用法
などが現在とは異なるものが画像として保存されているため、画像から
のOCRによる文字認識は困難であるが、画像による全文検索においてLSPC(Locality-Sensitive Pseudo-Code)の手法を用いることで成功し
た先行研究の成果を応用し、本研究ではLSPCを用いて頻出文字列の
抽出が可能であることを示す。

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について