情報処理学会ホームページ
FIT2013第12回情報科学技術フォーラム 開催日:2013年9月4日(水)~6日(金) 会場:鳥取大学鳥取キャンパス
抄録
E-032
Web日本語Nグラムを用いた高頻度連鎖語表現の選定
高橋伸弥・森元 逞(福岡大)
音声認識に用いる言語モデルは,一般に形態素を単位とすることが多い.しかし単語長の短い付属語は誤認識を起こしやすいことや慣用表現などは短い単位で認識するよりも長い単位で認識するほうがよいことから,高頻度な連鎖語は1単語として辞書登録しておくことにより言語モデルを改善する手法が提案されている.これらの手法においては言語モデルに組み込む連語をどのように選定するかが重要となる.そこで本研究では,Web日本語Nグラムを用いて計算した連鎖語の単語連接確率により高頻度かつ定型的な表現を選定する手法を検討する.更にこれらの高頻度連鎖語を組み込んだ言語モデルを用いて音声認識実験を行い,その有効性を検証する.