情報処理学会第88回全国大会

入力された動画に合わせてBGM生成を行える手法のひとつとして、Affective Multimodal Transformerqが提案されている。Affective Multimodal Transformerは、動画の動画特徴量と音楽特徴量を統合して動画に合ったBGMを自動生成するために開発されたマルチモーダルな深層学習モデルである。この手法では動画から特徴量を抽出し、Transformerベースのモデルを使ってコード進行を予測する。動画特徴量からノート密度や音量を推定し、それに応じて映像の雰囲気に合ったアルペジオパターンをコードに応じて割り当てることでBGMの生成を行う。しかし、Affective Multimodal Transformerでは、BGMの生成に使用されるアルペジオパターンが5種類と限定されており、表現の幅が狭いという課題がある。そこで、本研究では、Affective Multimodal TransformerによるBGM生成においてアルペジオパターンを拡張し、より多様で表現力のあるBGMを生成することを目的とする。