4P-03
システム発話間の内容的整合性を用いた強化学習に基づく発話選択
ユーザ発話内容の解析に偏重することなく,システム発話の順序をコントロールするだけで,聞き役の雑談対話システムを実現することを目指している.これまではシステム発話の集合をその対話行為や指示語の有無などで分類し,強化学習を適用してきたが,不適切なシステム発話の列が現れることがあった.本研究ではシステム発話間の内容の整合性をもとに,状態や報酬を再設計する.まず,システム発話間に人手で順序付けを行い,発話集合の分類に用いて状態を詳細化した.次に,新たな状態の遷移に報酬を設計し,強化学習を行った.提案手法を実装したシステムとテキスト対話を行い,選択されたシステム発話が破綻しているか否かにより評価する.