情報処理学会 第84回全国大会 会期:2022年3月3日~5日 情報処理学会 第84回全国大会 会期:2022年3月3日~5日

1R-04
wav2vec 2.0の事前学習モデルを用いた咽喉マイク音声認識
○増田光汰(静岡大),緒方 淳(産総研),西田昌史,綱川隆司,西村雅史(静岡大)
咽喉マイク音声は外部雑音の影響を受けにくいため、多人数会話や高雑音環境下での音声認識に適している。しかし接話マイク音声と比較して音響特徴量が異なり、一般的な音声認識モデルで咽喉マイク音声を認識することは困難である。このことから咽喉マイク音声に適した音声認識モデルを作成する必要があるが、十分な精度の音声認識モデルを構築するために必要な大規模な文字起こし咽喉マイク音声データベースが存在しない。
そこで本稿では、少量のラベル付きデータでも十分な精度の音声認識モデルを作成することができる手法として提案されたwav2vec 2.0に着目し、wav2vec2.0の事前学習モデルに対して咽喉マイク音声でファインチューニングを行うことによって、咽喉マイク音声のデータ量不足という問題点を解決することが可能か検討した。