2R-04
大規模テキストデータを用いた事前学習による音声対話の相槌予測
音声対話システムによる相槌のタイミングと種類の予測について述べる。相槌の種類は、「うん」などの応答系と「へー」「おっ」などの感情表出系の2種類とする。モデルの学習において音声対話のデータは限られているため、大規模テキストデータを活用した事前学習を提案する。しかし、テキストデータには相槌の情報が存在しないため擬似的に付与する。まず、テキストの句読点の位置を相槌の位置に対応させる。さらに周辺テキストの感情極性を推定し、極性が存在する場合(ポジティブまたはネガティブ)は感情表出系、存在しない場合は応答系とした。最後に音声対話データを用いてファインチューニングする。