Music Signal Processing Exploiting Spectral Fluctuation of Singing Voice Using Harmonic/Percussive Sound Separation

(邦訳:調波音打楽器音分離による歌声のスペクトルゆらぎに基づく音楽信号処理の研究) 
 
橘 秀幸
明治大学総合数理学部 研究推進員

[背景]多様な音楽コンテンツを想定した音楽検索や音楽加工
[問題]音楽信号からの情報抽出や音楽加工のための歌声強調手法の開発
[貢献]歌声のゆらぎに着目した新しい歌声強調手法の提案
 
 インターネット上での音楽コンテンツの増大などを背景とし,コンテンツベースの音楽検索のための研究が近年盛んになっている.また,情報処理技術によって音楽鑑賞をより豊かなものにするための研究も進められている.これらの基礎として重要なのが,音楽信号を楽器ごとなどに分離する,音楽信号処理技術である.このような技術は,音楽検索のために必要な情報の抽出(たとえば曲のジャンルを推定してタグ付け)の前処理として有効であると考えられるし,特定の楽器音のみを聴けるような新しい音楽プレイヤの開発にも直接的に利用できると考えられる.

 ところで,多くの聴衆にとって音楽の中でも特に印象的な要素は歌声である.したがって,音楽検索や音楽加工の中でも特に歌声に関する技術の確立は重要性が高く,歌声をどのようにして他の楽器音から分離するか,すなわち歌声強調が重要な研究課題となる.

 以上を踏まえて本研究では,歌声強調の新しいアプローチの検討を行った.本研究で特に着目したのは歌声の周波数や振幅のゆらぎである.歌声のゆらぎは,信号をスペクトログラム(時間周波数表現)により可視化したときには視覚的に非常に際立った性質として現れるにもかかわらず,歌声の他の典型的な性質(たとえば整数倍音の存在や特徴的スペクトル包絡形状)と比較して,従来は歌声強調のための特徴としての利用はあまり検討されてこなかった.

 歌声のゆらぎが歌声強調に従来それほど利用されなかった一因として,ゆらぎは複雑かつ多様な形状をしているため,直接的なモデル化が難しかったことなどが考えられる.本研究では,通常の見方では複雑な形状をしているゆらぎも,スペクトログラムの時間周波数解像度(分析時間スケール)次第ではシンプルな形状で表現され得ることに着目し,この着想に基づいて歌声強調手法「two-stage HPSS」を提案した.実験の結果,既存の歌声強調手法と比較しても高い水準の歌声強調性能を示すことが確認された.

 本研究では「Two-stage HPSS」の音楽からの情報抽出と音楽加工への応用の検討も行った.前者に関しては,音楽信号中のメロディの基本周波数を推定する問題への応用を検討した.第三者による性能評価実験により,特に伴奏音の音量が大きい場合について他手法よりも高い性能を示すことが確認された.後者に関しては,自動カラオケ生成システムの開発を検討した.このシステムは,CDプレイヤなどからライン入力した音楽信号からTwo-stage HPSSによりリアルタイムで歌声を抑圧し,さらにピッチを変換してスピーカーから出力するというものである.

 以上のように,本研究では,
  1. 歌声はスペクトログラム形状が時間周波数解像度に大きく依存することに着目し,シンプルな歌声強調方法「Two-stage HPSS」を提唱した.
  2. 音楽からの情報抽出の一例としてTwo-stage HPSSを歌声メロディ抽出の前処理に利用することを検討した.
  3. 音楽加工の一例としてTwo-stage HPSSに基づくリアルタイム自動カラオケ生成システムを制作した.
 


(2014年6月6日受付)
取得年月日:2014年3月
学位種別:博士(情報理工学)
大学:東京大学



推薦文
:(音楽情報科学研究会)


歌声処理において従来直接的にはあまり利用されなかった歌声のゆらぎに着目し,新しい歌声強調手法「Two-stage HPSS」を提案し,さらにメロディ推定,自動カラオケ生成,の音楽信号処理の各課題への応用を検討している.音楽情報科学分野における基礎技術としての重要性のある研究であり,博士論文速報として推薦する.


著者からの一言


本研究での主要なアイディアが海外の研究者の論文で言及され,独自の形で利用されていたのを見つけたときは,大変うれしく思いました.音楽情報科学分野が目指す目標への道のりは果てしなく長いものですが,研究会の皆様をはじめとしたさまざまな方々とともに体系的な知識を築いていくことができれば幸いです.