情報処理学会第80回全国大会講演論文集

5Q-05

深層学習を用いた声質変換の実験的評価

○高橋卓杜，高松瑞代（中大）

声質変換は, 入力話者による音声を, 音韻情報を保持したまま声質のみを対象とする話者に合わせて変換する技術である.
Desaiらの研究では, 音声から基本周波数とメルケプストラムを抽出し, 対象者の話者らしさを持つ音声に変換する. メルケプストラムの変換には, 混合正規分布に基づくモデルと多層ニューラルネットワークによるモデルが利用されている. Desaiらは二つのモデルを比較し, 多層ニューラルネットワークを用いる手法の有用性を示している.
本研究では, 多層ニューラルネットワークを用いた深層学習に基づく声質変換を実装し, 実験的に評価する.

情報処理学会 第80回全国大会講演要旨

情報処理学会第80回全国大会講演要旨