情報処理学会 第86回全国大会 会期:2024年3月15日~17日

4G-04
古活字版カタカナ活字データベースの構築 -活字画像の切り出しと分類手法の検討-
○杉山正治(大谷大),村上明子(関西外国語大)
古活字研究では古文書の紙面に印字された古活字を分類し,残存する古活字の現物の字の形と照合する.しかし,その作業量は膨大であり人力では限界がある.また,先行研究で古活字のデータベース構築が自動化された例がない.この問題を解決する手法として,国立国会図書館オンラインの和玉篇巻下(慶長年間)を対象とし,漢字・カタカナ混じりの古文書画像から自動的に活字領域を切り出して分類できる画像表示システムを提案する.本システムは機械学習AIではなく旧来の画像処理のみで実装しているが,高い認識精度で活字領域の矩形を抽出し,カタカナ活字を類似度順に並べて表示できる.本報告では提案システムの概要を示し,その有効性を示す.