情報処理学会 第86回全国大会 会期:2024年3月15日~17日

2C-01
自己教師あり学習モデルを用いたくずし字翻刻のための古文音声認識システムの構築
○張 宇涛,戸塚史織,耿 毓庭,岩居健太,西浦敬信,赤間 亮(立命館大)
日本には数百万の古典籍・古文書が残存するが、くずし字と呼ばれる文字で記されているため、現代の多くの人は文字を識別できない状況にある。これらの文献の活用には、翻刻とそのテキストデータ化が必須となる。上記作業の効率化のため、本研究では、翻刻成果の読み上げ音声を自動的にテキストデータ化する古文用音声認識システムの導入を検討する。具体的には、古文を流暢に読める複数の発話者から読み上げ音声データを収集し、自己教師あり学習モデルとデータ拡張手法を用いて古文音声認識モデルの構築を検討する。評価実験では、従来構築した古文用HMM-DNNモデルおよび現代語音声認識システムと比較して、認識性能の向上が確認された。