情報処理学会 第88回全国大会

5X-07
LLMを用いた近代公文書に対する文字認識の誤り修正
○大河戸陸斗,目加田慶人,道満恵介(中京大)
本研究室では、近代公文書の翻刻支援を目的とし、文書画像から文字領域の検出と文字種の推定を行っているが、文字の分類誤りが課題となっている。本報告では、LLM を用いた文字認識の誤り修正手法を検討した。使用モデルには日本語処理能力に優れた ELYZA-japanese-Llama-2-13b を採用し、LoRA によるファインチューニングを実施した。翻刻データを用いた文体学習と誤り修正学習の二段階学習を行うとともに、学習データ不足に対処するため、文字認識モデルの混同行列に基づく分類誤り辞書を構築し、人工誤文データを生成、活用した。実験では台湾総督府文書画像における実際の誤認識文を対象に行い、誤り修正能力を評価した。