情報処理学会第88回全国大会

本研究は、視覚・言語モデル（VLM）における日本語 OCR 性能の向上手法を体系的に検討したものである。日本語 OCR では、漢字を中心とした高密度文字領域の文字認識や縦書き文書への対応が困難であり、従来の VLM では情報欠損が生じやすかった。そこで本研究は、日本語文書に特有の高密度文字領域に焦点を当て、これらの領域を抽出して、補完的な視覚情報を VLM に与える手法を提案する。加えて、縦書き文書含む日本語文書データによるファインチューニングを組み合わせることで、総合的な認識性能の改善を図る。