LLM2D

摘要

arXiv:2504.09948v2 公告类型: 替换- 摘要：菜肴图像在数字时代发挥着重要作用，随着食品行业和电子商务的数字化，对文化特色菜肴图像的需求持续增加。一般情况下，现有的文本到图像生成模型在生成高质量图像方面表现出色；然而，它们在捕捉特定领域的多样特性和忠实细节方面面临挑战，尤其是中国菜肴。为了解决这一限制，我们提出了Omni-Dish，这是专门为中式菜肴设计的第一个文本到图像生成模型。我们开发了一整套菜肴策划管道，构建了迄今为止最大的菜肴数据集。此外，我们引入了重新描述策略，并采用从小到大的训练方案，帮助模型更好地学习细粒度的烹饪 nuances。在推理过程中，我们使用预先构建的高质量图像库和大型语言模型增强用户的文本输入，从而实现更具现实感和忠实度的图像生成。此外，为了扩展我们模型在菜肴编辑任务的能力，我们提出了增强概念的P2P。基于此方法，我们构建了一个菜肴编辑数据集，并训练了一个专门的编辑模型。广泛的经验表明，我们方法的优势。