6V-03
ビデオ通話におけるニューラルネットワークを利用した話者変換の検討
○齋藤優貴,能勢 隆(東北大),篠崎隆宏(東工大),伊藤彰則(東北大)
本稿では、ビデオ通話において話者(元話者)の音声や顔画像の個人性を別の話者(目標話者)のものに変換する手法を提案する。提案法では、あらかじめ元話者と目標話者のビデオ通話を学習データとして用意し、これから音声特徴量と顔画像特徴量を抽出する。この際、顔画像特徴量は元のピクセルデータに対し主成分分析をして次元圧縮をしたものを使用する。これらの特徴量を用いてニューラルネットワークを学習し、変換時にはこのネットワークを用いて入力特徴量の変換を行う。評価実験により特徴量の適切な次元数や学習データ量の影響を調べ、個人性が適切に変換されていることを示す。

footer 情報処理学会 セキュリティ プライバシーポリシー 倫理綱領 著作権について