情報処理学会第74回全国大会講演要旨

3C-3

ウェブデータベースを用いた音声認識用言語モデルの簡易適応

○西村竜一，島田敏明，田中雅康，河原英紀，入野俊夫（和歌山大）

我々は、大語彙連続音声認識の精度向上の為、ウェブデータベースを用いた3-gram言語モデルの拡張手法を検討している。本手法は、Googleの日本語N-gramデータベースの登録情報に基づき、学習用コーパス内では未観測であった3-gramの出現確率を推定する。また、本手法では情報量を基準として重要単語を抽出し、拡張する3-gramを選別する。昨年の報告に引き続き、提案法を言語モデルのタスク適応に応用した。実験では、日本語話し言葉コーパス（CSJ）から抽出した講演発話を対象に本手法を適用し、認識精度を評価した。また、提案法を実装したウェブアプリサービスを構築する予定なので、その概要を報告する。

情報処理学会 第74回全国大会講演要旨

情報処理学会第74回全国大会講演要旨