情報処理学会第88回全国大会

顔画像から個人の声を予測する際、人間は「顔印象」を「声印象」へと変換する認知プロセスを経ていることが示唆されている。本研究では、このプロセスを模倣するため、物理特徴の直接的な変換ではなく、言語空間における印象語を中間層として用いた顔声変換モデルを提案する。具体的には、顔画像から顔の印象語ベクトルを推定するモデルと、声の印象語ベクトルから音声特徴量を生成するモデルを構築し、両者を言語埋め込み空間を介して接続する。これにより、顔と声の構造的な関連性を、言語空間を介して柔軟にモデル化する。提案手法による生成音声を主観評価し、未知話者への汎化性能および知覚的な整合性における提案手法の有効性を検証する。