6ZK-06
ふりがな情報を考慮したTransformerによる古典籍のくずし字認識
○福本凌久,藤田 悟(法大)
古典籍に対する高速で高精度な翻刻を目的に、江戸時代の古典籍に含まれるくずし字の認識システムを提案する。本システムの特徴は、文字認識にTransformerを使用していることと、ふりがな情報を利用している点にある。まず、Transfomerを使用しているのは、草書体の特徴に注意機構の特性が有効であるためである。注意機構が前後の文字のピクセル間の関係を学習し、文字分割手法よりも草書体の特徴を効率的に捉えることができる。また、ふりがな情報を利用しているのは、低頻出漢字の認識を補助するためである。くずし字認識は、学習データの少ない漢字に対する精度が低いという問題を抱えている。この問題を克服するためにふりがな情報を考慮に入れた認識を行う。