3C-3
ウェブデータベースを用いた音声認識用言語モデルの簡易適応
○西村竜一,島田敏明,田中雅康,河原英紀,入野俊夫(和歌山大)
我々は、大語彙連続音声認識の精度向上の為、ウェブデータベースを用いた3-gram言語モデルの拡張手法を検討している。本手法は、Googleの日本語N-gramデータベースの登録情報に基づき、学習用コーパス内では未観測であった3-gramの出現確率を推定する。また、本手法では情報量を基準として重要単語を抽出し、拡張する3-gramを選別する。昨年の報告に引き続き、提案法を言語モデルのタスク適応に応用した。実験では、日本語話し言葉コーパス(CSJ)から抽出した講演発話を対象に本手法を適用し、認識精度を評価した。また、提案法を実装したウェブアプリサービスを構築する予定なので、その概要を報告する。