情報処理学会第87回全国大会

本研究は、オノマトペ音素からテクスチャ画像、画像から適切なオノマトペ音素を生成可能なマルチモーダル空間を構築する。まず、オノマトペ音素を再構成するオートエンコーダ（以下AE）と画像を再構成するAEを学習し、両者の中間特徴を最小二乗法で近づける。次に、LAION-5Bで学習済みのPretrainedモデルで確率的に高品質画像を生成し、そのプロンプト埋め込みを探索してテクスチャを復元、同時にオノマトペ音素特徴と対応付ける。これにより、オノマトペから画像、画像から音素という双方向の高品質生成が可能となり、言語と画像間の新たなマルチモーダル空間を提供する。