7ZC-03
Fully-CNNを用いた近代公文書画像からの文字検出
○高木裕平,山田雅之,目加田慶人,長谷川純一,中 貴俊,宮崎慎也(中京大)
近代公文書の字形データ作成の前処理において文書画像の赤成分の除去、グレースケール変換、罫線検出と除去、8連結画素成分ごとの外接矩形の検出を行う。しかし、この方法では背景が完全に除去できず、外接矩形の検出の精度が低下する。本研究の目的は、文書画像の赤成分の除去から罫線の除去までの過程をFully-CNNで行い、外接矩形の検出の精度を高めることである。本研究では、近代公文書の題材として台湾総督府文書を利用した。抽出済みの字形データから文字の矩形部分を白画素、それ以外を黒画素とした画像を教師データとし、Fully-CNNで学習することで背景除去フィルタを作成した。本研究では、正確に矩形できる数が増加し、検出の精度を高めることができた。

footer 著作権について 倫理綱領 プライバシーポリシー セキュリティ 情報処理学会