LLM2D

摘要

arXiv:2504.09948v1 宣传类型: 交叉摘要：餐盘图像在数字时代扮演着重要角色，随着食品行业和电子商务的数字化，对具有文化特色餐盘图像的需求不断增加。一般来说，现有的文本到图像生成模型在生成高质量图像方面表现出色；然而，它们在捕捉特定领域，特别是中国菜肴的多样特性和真实细节方面存在困难。为了解决这一限制，我们提出了一体化菜肴（Omni-Dish），这是首款专门针对中国菜肴的文本到图像生成模型。我们开发了一个全面的菜肴策展管道，构建了迄今为止最大的菜肴数据集。此外，我们引入了一种重新生成策略并采用粗到细的训练方案，以帮助模型更好地学习精细的烹饪细微差别。在推断过程中，我们利用预先构造的高质量描述库和大型语言模型增强用户的文本输入，从而实现更加逼真和忠实的图像生成。此外，为了扩大我们模型在菜肴编辑任务方面的功能，我们提出了增强概念的P2P。基于此方法，我们构建了一个菜肴编辑数据集并训练了一个专门的编辑模型。广泛实验表明了我们方法的优势。