5S-05
視聴覚自己教師あり学習に基づく音響イベント検出
○大田竹蔵(筑波大),坂東宜昭(産総研),井本桂右(同志社大学,産業技術総合研究所),大西正輝(産総研)
本稿では自己教師あり学習に基づく音響イベント検出 (SED) について述べる.混合音から音響イベントの種類と発生時刻を推定するSEDは,これまで膨大なアノテーションコストを要する課題があった.そこで本研究では,視聴覚情報を用いた自己教師あり学習(AV-SSL)に基づくSEDの構築法を提案する.音響信号と動画の共起関係を学習するAV-SSLは,音響イベントの識別に有効であることが知られている.SEDの弱教師あり学習における知見を活用し,AV-SSLの学習済みモデルから音響イベントの発生時刻を推定する.動画配信サービスから収集した映像データセットを用いて提案手法の有効性を確認した.