1ZC-03
古文書文字認識におけるN-gramの出現頻度を利用した認識候補削減法
○渡邊一義,渡辺 悟,鈴木徹也(芝浦工大)
古文書の翻刻は国文学研究の基礎的な作業であるが、それには大変な労力と時間を要する。そこで 我々は翻刻支援システムを提案し、その実現に取り組んでいる。我々のシステムでは、古文書の各文字に複数の文字認識候補を挙げ, その候補の組合せから最適なものを選ぶ。しかし実験により認識候補が多い時に正解率が低下することを確認した。
そこで本研究では正解率の向上を目的とし, 翻刻済み文献中のN-gramの出現頻度を利用し認識候補を削減する方法を提案する。N-gramの出現頻度に基づいたスコアを各認識候補に付与しスコアの低い候補を削除することで, 不正解の読みを高確率で削除し、正解率が向上することを実験により確かめた。

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について