LLM2D

摘要

arXiv:2504.12833v1 宣告类型: cross 摘要: 我们提出了一种新的方法，用于训练专门的基于指令的图像编辑扩散模型，解决了输入图像结构保真度和用户提示语义对齐的关键挑战。我们引入了一种在线强化学习框架，通过不依赖大量的人工标注或构建大规模数据集来使扩散模型与人类偏好对齐。我们的方法从两个方面显著提高了现实感和指令对齐。首先，提出的模型在复杂场景中实现了精确且结构连贯的修改，同时在与指令无关的区域保持了高保真度。其次，通过利用视觉提示捕获所需的编辑的细微之处，使用户能够详细控制视觉编辑，而无需冗长的文本提示。这种方法简化了用户实现高度特定编辑的努力，仅需提供5张描绘某个概念的参考图像进行培训。实验结果表明，我们的模型在仅经过10步训练后，可以在复杂场景中执行复杂的编辑。最后，我们通过将其应用于机器人学来展示了该方法的灵活性，其中通过目标导向的模拟到现实的图像编辑，提高模拟环境的视觉真实性，从而提高了它们作为真实世界设置的代理的实用性。