情報処理学会 第86回全国大会 会期:2024年3月15日~17日

1R-02
声質変換を用いたデータ拡張に基づく咽喉マイク音声認識
○塚越駿大,西田昌史(静岡大),西村雅史(愛知産大)
近年、雑音環境下における音声認識の需要が高まっている。咽喉マイクは外部雑音の影響を抑制するが、一般的な接話型マイクとは音響特性が異なるため既存の音声認識モデルでは認識精度が著しく低下する。また、咽喉マイク用の音声認識モデルを学習するだけの大規模な咽喉マイク音声のコーパスは存在しない。そこで本研究ではDNNに基づく声質変換技術を利用し、既存の大規模な音声コーパスを咽喉マイク音声に変換することを試みた。これを少量の咽喉マイク収録音声とともに事前学習された自己教師あり学習モデルのFine tuningに利用することで認識率の改善が得られたので報告する。