2D-7
外部知識としてウェブを用いた3-gram言語モデル拡張手法の検討
○西村竜一,島田敏明,田中雅康,河原英紀,入野俊夫(和歌山大)
大語彙連続音声認識の精度向上の為、ウェブを用いた3-gram言語モデルの拡張手法に関して報告する。3-gramモデルにおいて、学習コーパスに存在しない未観測3-gramの確率値を推定する手法として、バックオフが従来から用いられている。内包的な確率推定手法であるバックオフが広く普及する一方、本研究のように、外部のデータベースを用いた未観測3-gramの確率推定の手法も存在する。本発表では、外部データベースとしてGoogleデータベースを用いた場合の未観測3-gram確率推定法に関して、従来のバックオフ手法との比較を中心に報告する。