LLM2D

摘要

arXiv:2504.02828v1 类型：交叉摘要：扩散模型在图像编辑任务中广泛使用。现有的编辑方法通常通过在文本嵌入或分数空间中策划编辑方向来设计表示操作程序。然而，这样的程序面临着一个关键挑战：高估编辑强度损害了视觉一致性，而低估则无法完成编辑任务。值得注意的是，每张源图像可能需要不同的编辑强度，通过试错寻找合适的强度成本高昂。为了解决这一挑战，我们提出了一种概念裂解刀（CoLan）框架，该框架是一个零样本即插即用框架，在基于扩散的图像编辑中实现有原则的表示操作。在推断阶段，我们将源输入在潜在（文本嵌入或扩散分数）空间中分解为收集到的视觉概念表示的稀疏线性组合。这使我们能够准确估计每个图像中存在的概念，从而指导编辑。基于编辑任务（替换/添加/删除），我们执行定制的概念移植过程，以施加相应编辑方向。为了充分建模概念空间，我们制作了一个概念表示数据集，CoLan-150K，其中包含各种视觉术语和短语的多样描述和场景，以构建潜在词典。在多个基于扩散的图像编辑基线上的实验结果显示，配备了CoLan的方法在编辑效果和一致性保存方面取得了最先进的性能。