情報処理学会第85回全国大会 会期:2023年3月2日~4日 会場:電気通信大学

2H-02
古典籍資料をテキスト化するOCRの開発及び全文検索サービスの実験的提供
○青池 亨(国立国会図書館)
国立国会図書館は、所蔵する古典籍資料(江戸期以前の和古書、清代以前の漢籍等)に対する検索性の向上を目的として、デジタル化した古典籍資料をテキスト化するOCRの開発及びテキスト化処理を内製にて実施した。また、処理によって得たテキストデータを利用して、実験サービス「次世代デジタルライブラリー」上で2022年11月から古典籍資料約6万点について全文検索機能の提供を開始した。本稿では、開発したOCRモデルについてその性能の分析を行う。また、古典籍資料の全文検索によって新たに可能になった情報探索方法について説明する。なお、作成したOCR学習用のデータセット及びOCRプログラムはオープンソースとして公開予定である。