情報処理学会第88回全国大会

我々は授業音声の認識に取り組んでおり、子供向けの発話や冗談、くだけた発話、方言など、多様な発話が含まれる点に着目している。本研究では、授業音声と類似した特徴を持つ音声としてテレビ放送の音声を対象とし、既存の音声認識システムがどの程度認識可能であるか、またどこに課題があるかを明らかにすることを目的とする。具体的には、音声認識モデルWhisperを用いて種々のタイプの音声に対する認識性能を評価し、あわせてモデル適応（ファインチューニング等）が性能向上に与える効果について調査した。本報告では、これらの調査結果について述べる。