2Q-05
視聴覚統合に基づく音源定位と音区間検出の自己教師あり学習
ロボットが周囲の音環境を理解し行動するには、どの物体がいつ音を発しているか認識することが重要である。近年、音画像データの解析の中でも会議映像の解析ではDNNを用いた手法が高い性能を実現している。しかし、様々な音源が存在する実環境で収録されたデータに対し「各物体がいつ音を発しているか」という教師データを作成するのは容易ではない。本稿では、画像内の音源物体を検出するDNNと、各物体がいつ音を発しているかを推定するDNNの自己教師あり学習法を提案する。この学習法は教師データの代わりに、多チャネル音響信号の空間モデルを活用する。音源として人物を複数含む全方位画像と多チャネル混合音を合成し、動作を定性的に確認した。