情報処理学会第88回全国大会

本研究は，日本語音声対話における応答発話の「どのように話すか」を数値的に扱うため，対話コンテキストに基づき次応答の韻律パラメータを予測するモデルを構築するものである。前発話と応答側テキストのBERT埋め込みおよび音声Wav2Vec2特徴，話者性別情報を入力とし，話者基準で正規化したF0平均差・レンジ比，エネルギー平均差・レンジ比からなる4変数を回帰する。定数ベースラインとの比較実験を通じて，対話における人間らしい韻律制御に向けた有効性と残された課題を明らかにする。