情報処理学会 第87回全国大会

4T-01
大規模事前学習済みモデルとGMM-LDAを用いたFew-Shot音響シーン分類
○古賀直樹(産総研 / 同志社大),坂東宜昭(産総研),井本桂右(産総研 / 同志社大)
本稿では少数のラベル付きデータと大量のラベルなしデータを用いた音響シーン分類 (ASC) について述べる.ASCでは,高い分類精度を達成するため,定義済みのクラスごとに大量のラベル付きデータを用意する必要がある.そこで本研究では,自己教師あり大規模事前学習モデルとクラスタリングモデルを用いた少ラベルASCを提案する.本手法では,混合ガウスモデル付き潜在ディリクレ配分法 (GMM-LDA) を用いて,事前学習済みBEATsの埋め込みをクラスタリングすることで,少量の教師ラベルのみからASCを構築する.実録音ベンチマークデータを用いて提案法の有効性を評価した.