情報処理学会第81回全国大会講演論文集

2R-07

音響情報を用いた一枚画像からの動画生成

○土屋志高，板摺貴大，夏目亮太，加藤卓哉，山本晋太郎，森島繁生（早大）

人間は音のような聴覚情報から動画のような視覚情報を想像することが可能である．このような機能をコンピュータで実現する研究として，顔の特徴点や体のボーンといった特徴量を用いることで，口や体の動きを生成する研究がある．しかし，これらの手法では対象に特化した特徴量を用いているため，音と動きが連動したあらゆる現象に対して適用できないという問題点がある．本論文では，一枚の入力画像と数秒の入力音から，これらに合った動画を生成する問題に一般的に適用可能な深層学習を用いた手法を提案する．実験において，口や体の動きだけでなく，海の波や花火などの様々な動画において提案手法が有効であるかを検証した．

情報処理学会 第81回全国大会講演要旨

情報処理学会第81回全国大会講演要旨