情報処理学会第88回全国大会

テキストから画像を生成する技術（Text-to-Image: T2I）は、教育コンテンツ、広告デザインなど幅広い応用が期待される。その中でも、複数の対象や複雑な空間的・相互作用的な関係を含む長文入力に対応できれば、プロンプトの指示を細部に至るまで正確に反映した画像生成が可能となる。しかし、現在の長文対応モデルは、これらを反映した長くて詳細なテキストに対して、生成画像の整合性が著しく低いことが報告されている。そこで本研究では、T2Iモデルが苦手とする長文入力への対応を可能にする非学習な整合化手法を構築し、生成画像の品質向上を目指す。