情報処理学会 第86回全国大会 会期:2024年3月15日~17日

5S-07
マルチモーダル学習を用いた日本語読唇技術の研究
○宋 源易(帝京大)
聴覚障害者のコミュニケーション支援や,高騒音環境下での音声認識精度の向上を目的として,日本語読唇技術の研究を行っている。既存の研究では、日本語読唇の誤り率が82.6%と高い一方、英語の最新研究では26.9%にまで向上している。本研究では、英語で事前訓練されたav-hubertモデルにAdaINを組み込むことで読唇誤り率の改善を行った。さらに、ビデオデータ拡張と、日本語テキスト処理の改善を行うことで、ITAコーパスデータセットで5.48%、rohan4600で71.11%の誤り率を達成した。これにより、新しい手法やデータ処理手法が日本語読唇の精度向上に寄与することが明らかにした。