情報処理学会 第86回全国大会 会期:2024年3月15日~17日

7T-02
マルチモーダルモデルによる生態特徴観察と画像生成モデルを用いたデータ拡張の検証
○芹澤栞苑,岡山充希,中野雄太,長谷川達人(福井大)
Fine-Grained Image Recognition(FGIR)は,似たようなオブジェクト間の細かな違いを識別する,困難な分類タスクである.本研究では鳥のFGIRデータセット「CUB-200-2011」を題材に,画像生成モデルSDXLによるデータ拡張を試行する.また,マルチモーダルモデル「GPT-4V」による画像生成モデルのためのプロンプトの自動生成を試す.具体的には,「GPT-4V」に鳥の特徴の観察を行わせ,その観察結果をもとに「SDXL」のプロンプト作成を行う.以上のようなデータ拡張を行ったデータセットにより,実際に学習を行うことで定量的な検証を行う.