情報処理学会第85回全国大会 会期:2023年3月2日~4日 会場:電気通信大学

5C-05
クロスモーダル学習による時間情報を考慮した楽器音からの演奏動画生成
○中川智愛,井上勝文,吉岡理文(大阪公立大)
楽器音からその楽器を演奏している人物画像を生成するタスクにおいて,従来研究では時間情報を含む音楽情報より1枚の画像を生成するに留まっている.これに対し本研究では,画像にも時間情報を持たせ,音楽情報から演奏動画を生成するタスクに拡張する.具体的には,単純に短時間音楽情報から動画フレームを順次生成するのではなく,入力する音楽情報に時間情報ラベルを埋め込みつつ生成画像の前後関係を考慮することで,奏者の動作が滑らかに変化するよう動画フレームを生成する手法を提案する.本稿では,13種類の楽器演奏データを用いて生成した演奏動画に対して,従来手法をベースにした動画生成手法と比較した結果について述べる.