6ZE-02
音声物理特性に基づくTTSモデルの出力と幼児発話の関連性分析
○樽見理花(お茶の水女子大),上村卓也,寺島裕貴,丸谷和史(NTT コミュニケーション科学基礎研究所),伊藤貴之(お茶の水女子大)
本研究は,幼児の発話に見られる音響的特徴がText-to-Speech(TTS)モデルで再現可能かを検証し,合成音声と自然幼児発話の対応関係を明らかにすることを目的とする.従来,幼児の発話誤りは発声器官の未成熟など生物学的要因で説明されてきたが,本研究では音響的・物理的特性のみで説明できる可能性を検討する.日本語TTSモデル(ESPnet・JSUTコーパス)とGriffin-Lim/Parallel WaveGANを用いて合成音声を生成し,最大5年間の家庭内録音から構成される幼児音声データと比較した.両音声のメルスペクトログラムを算出し,Dynamic Time Warping(DTW)で時間整合を行い,コスト行列や差分ヒートマップを可視化して類似性と差異を評価した.本手法は幼児言語研究に新たな視点を与え,大量の幼児音声を収集せずに発話特性を再現する教育・療育支援への応用可能性を示す.