FIT2020 第19回情報科学技術フォーラム

抄録

CE-002
統計的歌声合成の音素タイミングモデル構築に向けた歌唱データベースの統計解析

○森勢将雅（明大/JST）

2020年現在の統計的歌声合成は，人間と比べても遜色のない品質での歌声を生成可能にし，歌声合成研究の主な目的は，End-to-End方法の実現や，合成速度の向上，省メモリで動作する歌声合成などにシフトしつつある．本研究では，歌声合成に関するモデル構築の省力化を目指し，音素タイミングモデル構築に注目した歌唱データベースの統計的な性質の解析に取り組む．プロ歌手による50曲（57分）の歌声が収録された歌唱データベースを対象に，譜面に対する音素タイミングのずれの分布を求め，持続時間や基本周波数との関係性を解析する．解析結果に基づき，音素タイミングモデルの構築に重要と考えられる特徴量について議論する．

A	モデル・アルゴリズム・プログラミング
B	ソフトウェア
C	ハードウェア・アーキテクチャ
D	データベース
E	自然言語・音声・音楽
F	人工知能・ゲーム
G	生体情報科学
H	画像認識・メディア理解
I	グラフィクス・画像
J	ヒューマンコミュニケーション＆インタラクション
K	教育工学・福祉工学・マルチメディア応用
L	ネットワーク・セキュリティ
M	ユビキタス・モバイルコンピューティング
N	教育・人文科学
O	情報システム