情報処理学会 第87回全国大会

4T-05
Wav2Vec 2.0ベクトル時系列の自己注意重みに基づく吃音検出モデル
○宮原絃造,加藤恒夫,田村晃裕(同志社大)
吃音検出器は,吃音症の治療に必要な重症度評価の効率化,定量化,自動化に寄与すると期待されている.従来の吃音検出モデルは音響特徴量を音声認識同様に用いていたが,吃音症状は類似する音の反復や延長などの時間的構造に特徴があるため,我々は以前スペクトログラムの自己注意重みを特徴量とする吃音検出モデルを提案した.しかし,公開されている吃音データセットを用いた評価において最先端モデルの精度に及ばなかった.本研究では自己注意重み特徴量を多次元化するため,多層のTransformerで異なる解像度の音声ベクトルを保持していると考えられるWav2Vec 2.0のベクトル時系列の自己注意重み特徴を用いる吃音検出モデルを提案する.