情報処理学会第88回全国大会

本研究は、強調制御可能な音声合成に必要な大規模ラベル付きデータの自動生成手法を提案する。Wav2vec2およびHuBERTによる音響特徴抽出と、LSTMおよびTransformerによる系列モデリングを組み合わせた深層学習モデルを構築し、音声中の強調箇所を検出する。人手アノテーションデータとの詳細な比較分析により、モデルが検出する強調と人間が知覚する強調との違いや検出パターンの傾向を明らかにした。さらに、未知話者データでの汎化性能評価、複数モデル間の性能比較、大規模データへの適用実験を通じて、音声合成用データ自動生成手法としての実用性を多角的に実証した。本手法は表現豊かな音声合成実現に向けた重要な基盤となる。