2R-06
音声認識を用いた講義音声の早口分析
本研究では、音声認識APIを用いた早口分析を行った。先行研究では、Web Speech APIを用いて発話を記録し、1秒あたりの発話文字数を計測することで、早口の検出を行っていた。しかし、システムが早口だと検出した部分が、実際に聴講者が早口だと感じたタイミングとずれていることがあった。そこで本研究では、(1)音声認識の精度を補う方法、(2)発話文字数以外で早口を表現する特徴を検討する。まず、(1)では複数の音声認識APIの併用を行った。その結果、手動の書き起こしと比較して発話文字数が約20%減少すること、講義内での声量の変動が大きいと音声認識が中断される場合があることが分かった。また、(2)では声量の変動や、「焦り」という話者の心理的状況が有効であった。