情報処理学会第85回全国大会 会期:2023年3月2日~4日 会場:電気通信大学

4ZL-01
明治期の函館新聞を対象としたイメージベースでの共起分析
○岩成 豪,寺沢憲吾(はこだて未来大)
現在,歴史の分析として重要である一方,時間的,人的コスト等が原因でテキスト化されていない歴史資料画像が多く存在する.この歴史資料画像の一つである明治期の函館新聞を対象に本研究では,イメージベースでのキーワード抽出を行う.具体的には,文字切り出しした画像から特徴量抽出を行い,得られた特徴量をクラスタリングする.クラスタリング結果を用いて各文字画像を擬似コード化し,この擬似コード列に基づいて頻出文字列の抽出を行う.本研究では,この中で頻出文字列同士の関連性を調べるため,得られた擬似コード列に対して,共起分析などの従来の自然言語処理手法が適用できるかどうか検証を行う.