4U-07
生成文字画像を用いた単・複数行テキストに対する文字認識精度向上の検討
○チーシャン レオ,北川智樹,矢島英明,西崎博光(山梨大)
高精度な深層学習ベースの文字認識システムを構築するのに、大量な学習データが必要である。本稿では、先行研究であるY-Autoencoderを用いた文字生成モデルで生成された漢字の画像を元に、単行または複数行の文字認識器の精度向上を向上する方法を検討した。また、従来の文字認識器では一行単位のものが多く、単一モデルによる単行または複数行を認識できるモデルは少ない。本稿では、文字が検出されることを仮定し、TrOCRモデルを元に単行および複数行を単一のモデルで認識する方法を検討した。その結果、TrOCRモデルは画像の事前処理の工夫によって、複数行の認識も可能であることがわかった。