山本 克彦 トヨタ自動車(株) エンジニア |
キーワード
音声了解度 | 客観評価指標 | 聴覚モデル | 音声強調処理 |
[背景]音声強調処理のための客観評価指標
[問題]音声了解度についての実用的な指標が無い
[貢献]人間の聴覚特性を反映した客観評価指標の提案
[貢献]人間の聴覚特性を反映した客観評価指標の提案
音声信号処理の分野において,人間の聴取実験の結果に対応した音声の客観的評価指標の開発は重要な研究課題の1つである.音声の明瞭性の客観的評価指標として,STIやSIIと呼ばれる指標が国際規格として推奨されているが,雑音抑圧処理に用いられる非線形な信号処理手法には対応していない.多くの先行研究では,音声の分析過程で得られるさまざまな音響特徴量に注目して予測精度の改善を目指しているが,人間の聴覚系での信号処理過程を十分に反映できていなかった.客観評価指標に人間の聴覚系の計算モデル(聴覚モデル)を組み込むことにより,難聴者の聴覚特性も反映可能になることが期待できる.
本研究では,はじめに,人間の聴覚末梢系に含まれる非線形特性を反映させた,動的圧縮型ガンマチャープ(dcGC)フィルタバンクと呼ばれる聴覚フィルタバンクを用いた音声了解度予測法(dcGC-sEPSM)を提案した.このdcGCフィルタバンクの後段は,周波数分割された狭帯域信号の時間的な振幅包絡に含まれる音声情報を詳細に分析できる変調フィルタバンクが導入されている.この出力から得られる時間的な変動パワーから,振幅包絡上の信号対雑音比(SNRenv)を計算し,この値を音声了解度に変換する.
次に,このSNRenvを信号対歪み比(SDRenv)に置き換えることにより,dcGC-sEPSMをさらに使いやすくした新しい音声了解度予測法(GEDI)を提案した[図(a)].GEDIでは,入力音声の振幅包絡から振幅包絡歪み信号[図(b)]を新たに計算し,そのパワー分布[図(c)]からSDRenvを算出する.さらに,時間的に非定常な雑音条件下で強調音声の了解度を予測可能な,多重時間解像度版 GEDI(mr-GEDI)を提案した.mr-GEDIでは,変調フィルタバンクの出力を時間波形として抽出し,変調フィルタの中心変調周波数に依存した短時間フレームごとの振幅包絡パワーを計算することでSDRenvを算出しする.
これらの提案法の評価を行うために,パワーが周波数に反比例するピンク雑音条件下に加えて音声を足し合わしたバブル雑音条件下の強調音声を使用して,了解度の予測実験を行った.結果として,両条件下において,mr-GEDIが主観評価の結果の傾向を正しく予測することができた.これにより,本研究で提案した客観評価指標の中で,mr-GEDIが最も実用性の高い客観評価指標であることが示された.
本研究の成果により,聴覚モデル群の出力から計算されるSDRenvと呼ばれる新たなアルゴリズムが音声了解度の客観評価に使用可能であることが分かった.今後の課題として,音声了解度の予測精度を向上させるために,入力信号のレベル関係を適切に定義することや,聴覚計算理論に基づいた他の音響特徴量の検討などが挙げられる.さらに,本研究で提案した客観評価指標を応用することで,将来的には難聴者を対象とした音声了解度予測,音声品質の客観評価指標への拡張,雑音抑圧処理手法のパラメータ最適化,補聴器をはじめとした聴覚補助機器のフィッティング最適化への貢献が期待できる.
本研究では,はじめに,人間の聴覚末梢系に含まれる非線形特性を反映させた,動的圧縮型ガンマチャープ(dcGC)フィルタバンクと呼ばれる聴覚フィルタバンクを用いた音声了解度予測法(dcGC-sEPSM)を提案した.このdcGCフィルタバンクの後段は,周波数分割された狭帯域信号の時間的な振幅包絡に含まれる音声情報を詳細に分析できる変調フィルタバンクが導入されている.この出力から得られる時間的な変動パワーから,振幅包絡上の信号対雑音比(SNRenv)を計算し,この値を音声了解度に変換する.
次に,このSNRenvを信号対歪み比(SDRenv)に置き換えることにより,dcGC-sEPSMをさらに使いやすくした新しい音声了解度予測法(GEDI)を提案した[図(a)].GEDIでは,入力音声の振幅包絡から振幅包絡歪み信号[図(b)]を新たに計算し,そのパワー分布[図(c)]からSDRenvを算出する.さらに,時間的に非定常な雑音条件下で強調音声の了解度を予測可能な,多重時間解像度版 GEDI(mr-GEDI)を提案した.mr-GEDIでは,変調フィルタバンクの出力を時間波形として抽出し,変調フィルタの中心変調周波数に依存した短時間フレームごとの振幅包絡パワーを計算することでSDRenvを算出しする.
これらの提案法の評価を行うために,パワーが周波数に反比例するピンク雑音条件下に加えて音声を足し合わしたバブル雑音条件下の強調音声を使用して,了解度の予測実験を行った.結果として,両条件下において,mr-GEDIが主観評価の結果の傾向を正しく予測することができた.これにより,本研究で提案した客観評価指標の中で,mr-GEDIが最も実用性の高い客観評価指標であることが示された.
本研究の成果により,聴覚モデル群の出力から計算されるSDRenvと呼ばれる新たなアルゴリズムが音声了解度の客観評価に使用可能であることが分かった.今後の課題として,音声了解度の予測精度を向上させるために,入力信号のレベル関係を適切に定義することや,聴覚計算理論に基づいた他の音響特徴量の検討などが挙げられる.さらに,本研究で提案した客観評価指標を応用することで,将来的には難聴者を対象とした音声了解度予測,音声品質の客観評価指標への拡張,雑音抑圧処理手法のパラメータ最適化,補聴器をはじめとした聴覚補助機器のフィッティング最適化への貢献が期待できる.
(2019年5月26日受付)