情報処理学会 第87回全国大会

2P-08
作曲スタイル認識を導入したRNNトランスデューサに基づく歌声MIDI採譜
○杉本 悠,中村栄太(九大)
歌声採譜で課題となる大きな音高変動や曖昧な音符境界に対処するため、音楽言語モデルを制約として用いる方法が有効である。これにより音階から外れた音符誤りを低減できるが、音階などの作曲スタイルは多様であり、全ての楽曲に単一の言語モデルを用いる従来の方法には限界がある。また、従来のマルコフモデルでは離れた音符間の関係が表せない問題もある。本研究では、楽譜データをクラスタリングして、作曲スタイルごとに学習したニューラル言語モデルを利用し、RNNトランスデューサを構成する。採譜時には、入力音響信号に対し作曲スタイル認識を行い、楽曲ごとに最適な言語モデルを用いる。ポピュラー音楽を用いて提案手法を評価する。