情報処理学会第88回全国大会

近年の音声認識・合成技術の著しい進展により音声ユーザインターフェースが広く利用されるようになってきた。しかし複数話者を対象とした自然な対話ができるロボットは未だ実現していない。その実現には発話内容だけでなく、誰が誰に話しているかといった会話ダイナミクスの認識が不可欠である。これに対し、日常的な場面における複数話者の音声・画像データセットが公開され、これを学習データとしたニューラルネットベースの手法も提案されているが精度は十分でない。そこで本研究では，これらのデータセットに対し，我々がこれまで検討してきたルールベースの受話者判定アルゴリズムを適用し，発話者・受話者認識の精度を検証した。