情報処理学会第86回全国大会

アニメや映画、ゲームで利用される効果音を、従来の制作技術や経験がなくとも、擬音的な口真似の音声を基に合成する深層学習技術の研究を行っている。提案する生成モデルは、TransformerとiSTFTNetの2つの深層学習で構成している。本発表では、その技術構成と、発音ニュアンスへの追従性向上と合成音質の向上のために行った改良について説明する。