情報処理学会 第87回全国大会

1ZK-08
擬似コードに基づく明治期函館新聞の内容解析
○永井清盛,寺沢憲吾(はこだて未来大)
現在,多くの歴史的文書をデジタルアーカイブとして利用できる.しかし,多くのデジタルアーカイブ内の文書画像はテキスト情報を持っていない.そのため,一般的な自然言語処理手法の適用が困難になっている.しかし,文書画像のテキスト化には多くの人的コストや時間がかかってしまう.そこで,本論文では明治期函館新聞を対象とし,画像の文章をテキスト化することなく文書解析を行った.具体的には,明治期函館新聞画像から各文字画像を抽出し,その画像の特徴量ごとにクラスタリングすることで,画像データを擬似コード列に表した.得られた擬似コード列をKH Coderにて共起分析することで,テキスト化を介さない内容解析を実現した.