情報処理学会第88回全国大会

顔画像から音声を生成する顔声変換手法において、同一話者の顔と声のペアで学習する従来手法は解釈性に課題がある。本研究では、人間が顔から声を想像する際に介在させる「印象」に着目し、顔と声の印象の関係を分析した。具体的には、アジア人男性の顔画像に対し、顔自体の印象と想像される声の印象をSD法で収集し、多変量解析を行った。その結果、顔と想像される声の間には強い相関関係が存在することが判明した。特に、顔と声を共通して特徴づける主要な印象の次元において、両者の空間が高い整合性を持って対応していることが定量的に示された。本知見は、言語埋め込みを中間表現とする新たな音声生成モデルの妥当性を支持するものである。