6ZE-03
強調制御可能な音声合成のための深層学習による自動ラベル付け手法の構築と評価
○久米健太,吉田 稔(徳島大),西村良太(豊橋技科大)
本研究は、強調制御可能な音声合成に必要な大規模ラベル付きデータの自動生成手法を提案する。Wav2vec2およびHuBERTによる音響特徴抽出と、LSTMおよびTransformerによる系列モデリングを組み合わせた深層学習モデルを構築し、音声中の強調箇所を検出する。人手アノテーションデータとの詳細な比較分析により、モデルが検出する強調と人間が知覚する強調との違いや検出パターンの傾向を明らかにした。さらに、未知話者データでの汎化性能評価、複数モデル間の性能比較、大規模データへの適用実験を通じて、音声合成用データ自動生成手法としての実用性を多角的に実証した。本手法は表現豊かな音声合成実現に向けた重要な基盤となる。