6ZK-04
日本近代手書き文字認識におけるSimCLRとMasked Autoencoderを用いた事前学習の有効性の検証
○宮川裕貴,山田雅之,中 貴俊,兼松篤子,宮崎慎也(中京大)
近代公文書の多くはくずし字を含む手書きの文書であるため解読が容易ではない.
我々は近代公文書を対象としたOCRシステムとそのためのデータセット開発を進めているが,
データセット内において出現頻度が低い字種は認識精度が低い傾向にある.
精度改善のアプローチとして自己教師あり学習による事前学習が挙げられる.
本研究では文字認識モデルにVision Transformerを採用し,事前学習にはSimCLRとMasked Autoencoderの2つの自己教師あり学習を適用し,文字認識精度の改善を試みた.
実験の結果,文字認識タスクのみ学習した場合と比較し,過学習抑制と精度向上を確認した.