FIT2014 第13回情報科学技術フォーラム

抄録

E-022
マルチモーダル音声認識における音声と画像の協調によるモデル適応法の検討

○絹田卓也・田村哲嗣・速水　悟（岐阜大）

音声認識技術において，実環境下での環境雑音による認識率低下の改善は必須であり，音響情報と画像情報を用いたマルチモーダル音声認識による，雑音環境下に強い音声認識が研究されている.一方，音声認識結果と，認識対象話者の少量の発話データを用いて，モデル適応を行い，認識結果を改善する手法がある.本稿では，音響モデルまたは画像モデルに対し，より認識精度の高いマルチモーダルの認識結果を用いた適応を行い，それを統合したモデルでより認識精度を高め，これを繰り返すことで，従来の適応法より認識精度の向上を目指す.認識実験は音声雑音，画像雑音，音声画像雑音を載せて実験を行った.