7X-05
日本語オノマトペと画像の質感特徴間におけるマルチモーダル分散表現の獲得
○村尾 航,島田伸敬(立命館大)
本研究は、オノマトペ音素からテクスチャ画像、画像から適切なオノマトペ音素を生成可能なマルチモーダル空間を構築する。まず、オノマトペ音素を再構成するオートエンコーダ(以下AE)と画像を再構成するAEを学習し、両者の中間特徴を最小二乗法で近づける。次に、LAION-5Bで学習済みのPretrainedモデルで確率的に高品質画像を生成し、そのプロンプト埋め込みを探索してテクスチャを復元、同時にオノマトペ音素特徴と対応付ける。これにより、オノマトペから画像、画像から音素という双方向の高品質生成が可能となり、言語と画像間の新たなマルチモーダル空間を提供する。