情報処理学会 第86回全国大会 会期:2024年3月15日~17日

7ZK-06
近代言語モデルを用いた近代公文書OCRの精度改善手法の提案
○亀山京右,山田雅之,中 貴俊,兼松篤子,宮崎慎也,長谷川純一(中京大)
我々の研究チームでは,近代の文書として体系的に保管されている台湾総督府公文書を題材とした近代公文書自動認識システムの構築を進めている.その中で,公文書による学習のみでは近代文書の特徴をうまく捉えることができない点が課題としてあった.そこで本研究では,青空文庫で公開されている近代の文書データを用いて近代言語モデルの事前学習を行い,近代文書の汎用的な特徴を学習することによる近代公文書認識システムの精度向上を目指した手法の提案を行う.