情報処理学会第85回全国大会 会期:2023年3月2日~4日 会場:電気通信大学

7ZB-06
複数音像の再現のためのDiffusionモデルを用いたバイノーラル音声変換
○北村健太郎,伊藤克亘(法大)
コンサートホールでの録音は会場上部に吊り下げられているマイクでされている。その録音機は HRTF(頭部伝達関数) を意識された録音がされておらず会場の臨場感を録音することができない。バイノーラル録音できる機材は市販されているものの、値段が高く手に届かないことやバイノーラルマイクの見た目がコンサートホールの景観を損なうなどの理由で使われていない。その問題を解決するために、研究では空間音響と HRTFを音源と音源の位置を用いて学習したモデルを使い、通常のステレオ音源をバイノーラル音源へと変換する。この研究により音楽配信サービスなどのストリーミング音声の臨場感の向上や、バイノーラルオーディオ作成のコストが格段に減ることを期待する。