情報処理学会第81回全国大会講演論文集

6T-03

Listen and Tell: 深層学習を用いた音響シーンのキャプション生成

○岩月道生，周藤　唯，糸山克寿，西田健次，中臺一博（東工大）

本稿では，環境音響信号に対してキャプションを自動生成する手法を検討する．画像に対するキャプション生成手法は show and tell として知られ，深層学習を用いた研究が多く存在する．一方音響信号は時系列の一次元信号であり，かつ各音イベントが可変長であるから画像で用いられる手法をそのまま適用することは難しい．そこで，1) 音響信号を複数の時分割スペクトログラムとすることにより音響信号を画像化し，2) RNNを用いることで可変長の時系列信号を扱えるようにした listen & tell 手法を提案する．提案手法に基づき音の種類とタイミングをキャプションするモデルを構築し、合成データを用いてその有効性を確認した．

情報処理学会 第81回全国大会講演要旨

情報処理学会第81回全国大会講演要旨