摘要
arXiv:2504.09948v3 通知类型: 替换-跨领域
摘要:菜谱图片在数字时代发挥着重要作用,随着食品行业和电子商务的数字化,对具有文化特色菜谱图片的需求不断增加。在一般情况下,现有的文本到图像生成模型擅长生成高质量的图片;然而,它们在捕捉特定领域的多样特性和细节方面存在困难,特别是中国的菜肴。为了解决这一局限性,我们提出了Omni-Dish,这是首款专门针对中国菜肴的文本到图像生成模型。我们开发了一个全面的菜肴策展流水线,构建了迄今为止最大的菜谱数据集。此外,我们引入了一种重述策略,并采用从粗到细的训练方案,帮助模型更好地学习精细的烹饪特征。在推理过程中,我们使用预先构建的高质量标题库和大型语言模型增强用户的文字输入,从而使生成的图像更加逼真和忠于原貌。此外,为扩展我们的模型在菜肴编辑任务的能力,我们提出了概念增强的P2P方法。基于这种方法,我们构建了一个菜肴编辑数据集并训练了一个专门的编辑模型。广泛的实验表明了我们方法的优越性。