情報処理学会第80回全国大会講演論文集

7ZC-03

Fully-CNNを用いた近代公文書画像からの文字検出

○高木裕平，山田雅之，目加田慶人，長谷川純一，中　貴俊，宮崎慎也（中京大）

近代公文書の字形データ作成の前処理において文書画像の赤成分の除去、グレースケール変換、罫線検出と除去、8連結画素成分ごとの外接矩形の検出を行う。しかし、この方法では背景が完全に除去できず、外接矩形の検出の精度が低下する。本研究の目的は、文書画像の赤成分の除去から罫線の除去までの過程をFully-CNNで行い、外接矩形の検出の精度を高めることである。本研究では、近代公文書の題材として台湾総督府文書を利用した。抽出済みの字形データから文字の矩形部分を白画素、それ以外を黒画素とした画像を教師データとし、Fully-CNNで学習することで背景除去フィルタを作成した。本研究では、正確に矩形できる数が増加し、検出の精度を高めることができた。

情報処理学会 第80回全国大会講演要旨

情報処理学会第80回全国大会講演要旨