情報処理学会 第88回全国大会

5ZE-05
視覚音声認識における不確実性指標を用いた単語誤り率推定と話者適応の効率化
○湯浅隼大,田中啓太郎,森島繁生(早大)
視覚音声認識(読唇術)は,口の動きから発話内容を推定する技術である.話者ごとに口唇形状や発話動作が異なるため認識誤りが生じやすく,加えて認識結果の信頼性を把握しにくいことも実運用上の課題である.この個人差に起因する問題には,先行研究で話者適応が試みられてきたが,適応データには高いアノテーションコストが伴う.本研究は,これらの課題に共通して対処する手法として不確実性指標を導入し,認識結果の信頼度推定と,高不確実性データを優先的に用いる能動学習的な話者適応を実現する.実験により,不確実性と単語誤り率の高い相関を確認し,同量のランダムなデータ選択と比べて同等以上の適応効果が得られることを示した.