情報処理学会第76回全国大会講演要旨

5S-3

Deep Neural Networkを用いたマルチモーダル音声認識の為の特徴量学習

○山口雄紀（京大），野田邦昭（早大），中臺一博（ホンダRIJ），奥乃　博（京大），尾形哲也（早大）

本研究の目標は，マルチモーダル音声認識の為の画像特徴量の設計である．
マルチモーダル音声認識の精度向上のためには，唇画像から
どのようにして音声認識の最小単位である音素や口形素を表現する情報を
取り出すかが重要な課題である．本研究では，特徴量学習の
新たな手法として注目を集めているDeep Neural Network (DNN)を
用いて大量の唇画像から画像特徴量を自己組織的に抽出する手法を構築した．
得られた画像特徴量を孤立単語認識タスクで検証するとともに
特徴量空間を解析する事で口形素との関連についても考察した．
また，得られた画像特徴量と音声を用いた視聴覚統合による
ノイズ頑健性の向上について検証を行った．

情報処理学会 第76回全国大会講演要旨

情報処理学会第76回全国大会講演要旨