非言語情報の違いに頑健な特徴量表現に着目したニューラルネットワーク音声認識に関する研究

柏木陽佑

ソニー（株）

［背景］音声認識におけるニューラルネットワークの台頭

［問題］ニューラルネットワーク音声認識における非言語情報の制御

［貢献］ニューラルネットワークとGMMベースアプローチの融合

音声認識システムは，スマートフォンの普及や計算機パワーの発展などに伴い，非常に身近なものとなりつつある．単純な入力インタフェースとしての性能は実用に耐え得るものとなってきたが，その認識性能は人間のそれと比べた場合いまだ充分とはいえない．今後，自動音声認識技術のさらなる応用を考えた場合，認識性能の向上は必要不可欠である．

我々が普段何気なく聞いている音声にはさまざまな情報が内在する．これらは大きく言語情報，パラ言語情報，非言語情報の3つに分けることができ，音声認識とは，この内の言語情報を抽出するタスクであると考えることができる．なお，本研究において前提とする音声認識システムでは，パラ言語情報による影響は音声分析の過程でなくなるものと考えることができる．しかし，非言語情報は音響特徴量に影響を与えるためノイズであり，認識性能の低下の原因となる．そのため，これをいかに制御するかが音声認識において長年の課題であった．

近年，統計的機械学習はニューラルネットワークの台頭という大きな転換点を迎えた．音声認識技術においてもこの影響は大きく，ニューラルネットワークベースの識別的な音声認識システムが高い性能を示すことも報告され，もはやニューラルネットワークベースのシステムが主流となったといえる．しかし，ニューラルネットワークは従来のガウス分布，ガウス混合分布に基づく生成的なモデルとは性質が大きく異なる．そのため，従来の非言語情報に関する要素技術をそのまま利用することが困難であり，現在のニューラルネットワークをベースとする音声認識における非言語情報の制御に関する研究の潮流は，手探りな状況であることが否めない．これを打開するためには，ニューラルネットワーク音声認識に適した理論的背景に重点を置いた非言語情報の制御技術の研究が重要である．

そこで，本研究では，非言語情報の違いに頑健なニューラルネットワーク音声認識システムの実現を目標とした．非言語情報の制御として大きなウェイトを占める特徴量と音響モデルにおいて，従来のガウス混合分布に基づく非言語情報の制御に関する要素技術を基にした，ニューラルネットワークベースの非言語情報の制御手法を提案した．これにより，従来の生成的アプローチの持つパラメータの意味づけ，制御に関する要素技術をニューラルネットワーク音声認識に取り入れることが可能となり，認識性能の向上が可能となった．

さらに，本研究の後半では非言語情報の違いに頑健な特徴量表現である音声の構造的表象，そしてそれを構成する分布間距離の計算に対してニューラルネットワークを用いたアプローチを導入した．これにより，ニューラルネットワークの高い識別性能とそれを支える特徴量空間の表現能力を，従来のガウス分布をベースとする音声学的知見に基づいた手法との融合が可能となり，ニューラルネットワークを用いた新しい非言語情報の違いに頑健な特徴量表現が実現できた．

（2016年6月16日受付）

取得年月日：2016年3月
学位種別：博士（工学）
大学：東京大学

推薦文：（音声言語情報処理研究会）

本論文は，深層学習に基づく音声認識用音響モデリング技術を多角的に捉え，深層学習を1）識別的な音声状態推定，2）話者コードを用いた話者適応，3）識別的な分布間距離推定に適用し，音声認識・言語認識精度の向上を実現した．特に音声に不可避的に混入する非言語的な音響変動に対する頑健さを向上させることができた．

著者からの一言：

本研究にあたり，多大なる御指導，御鞭撻を賜りました指導教員の先生，ならびに研究室の皆様に深く感謝いたします．博士論文としてこの研究に一区切り置くことができましたが，今後とも音声認識技術の発展に尽力したいと考えています．

2015年度へ戻る

このページの先頭へ