1R-06
実時間で動作する音響イベント検出の大規模事前学習
○大田竹蔵(筑波大),坂東宜昭(産総研),井本桂右(同志社大,産総研),大西正輝(産総研)
本稿では実時間で動作する音響イベント検出 (SED) について述べる.SEDでは Audio Spectrogram Transformer (AST) が高い性能を発揮しているが,ASTは観測信号全体を入力するオフライン型であり,実時間推論で必要な逐次処理には不向きだった.そこで本研究では,入力を短時間のチャンクに分割する逐次型ASTによるSEDを構築する.具体的には,チャンク内の情報を次チャンクへ伝播させる記憶トークンを導入し,逐次処理でも高い性能を維持する.さらに,学習済みのオフライン型ASTの知識蒸留および1万時間を超える大規模学習データでの分散学習を併用して性能を改善した.