5Q-2
音声対話システムの言語モデル自動作成を目指したコーパスへのクラス付与
○森祥二郎,駒谷和範,佐藤理史(名大)
音声対話システムでは地名等の固有名詞である内容語の認識が重要であり、
これをクラスとしたクラスN-gramモデルの自動作成が望まれる。
これにはコーパスへのクラス付与が必要であり、大規模コーパスに対して
人手で行うには多大な労力を要する。
本研究では、Bootstrap的なコーパスへの自動クラス付与を試みる。
まず単語N-gramモデルと複数のクラスN-gramモデルを作成した上で比較し、
大規模コーパスから作成した単語N-gramモデルでは内容語の認識ができず、
クラスが必要であることを示す。
次に機械学習により、大規模コーパスへの自動クラス付与を試みる。
評価実験により、内容語の認識率の向上を確認する。