情報処理学会第88回全国大会

本研究は，幼児の発話に見られる音響的特徴がText-to-Speech（TTS）モデルで再現可能かを検証し，合成音声と自然幼児発話の対応関係を明らかにすることを目的とする．従来，幼児の発話誤りは発声器官の未成熟など生物学的要因で説明されてきたが，本研究では音響的・物理的特性のみで説明できる可能性を検討する．日本語TTSモデル（ESPnet・JSUTコーパス）とGriffin-Lim／Parallel WaveGANを用いて合成音声を生成し，最大5年間の家庭内録音から構成される幼児音声データと比較した．両音声のメルスペクトログラムを算出し，Dynamic Time Warping（DTW）で時間整合を行い，コスト行列や差分ヒートマップを可視化して類似性と差異を評価した．本手法は幼児言語研究に新たな視点を与え，大量の幼児音声を収集せずに発話特性を再現する教育・療育支援への応用可能性を示す．