情報処理学会 第88回全国大会

2Y-03
自然言語処理を用いた絵本OCR出力中の読み上げ不要テキストの識別手法
○鈴木結理,寺沢憲吾(はこだて未来大)
絵本をテキストデータ化することで,読み聞かせによる育児支援や視覚障がい者のための自動読み上げ,検索などの活用が可能となる.本研究では,絵本のOCR出力に対して,読み上げ不要なテキストを識別して本文から削ることで,出力の利便性を向上させる.そのため,Bounding BoxごとのOCR出力に自然言語処理を適用し,文章として不自然なOCR出力を識別した.また,ふりがなを検出し,さらに座標と文字情報を併用してふりがなと本文の漢字を対応付けることで,読み上げ不要なふりがなをテキストから削るとともに,著者の意図した読みを本文に付加した.これらの処理により,利便性の高いテキストを得ることができた.