LLM2D

摘要

arXiv:2505.08705v1 宣言类型: cross 摘要：近年来，深度学习在图像着色中的应用受到了广泛的关注。随着扩散模型的成熟，图像着色模型的发展也得到了进一步的推进。然而，当前主流的图像着色模型仍然面临着色彩溢出和色彩绑定错误等问题，并且无法在实例级别进行着色。本文中，我们提出了一种基于扩散的着色方法 MT-Color，以实现使用提供的指导进行精确的实例感知着色。为了解决色彩溢出问题，我们设计了一种像素级的掩码注意力机制，通过交叉注意力将潜在特征和条件灰度图像特征结合起来。我们使用分割掩码来构建交叉注意力掩码，防止不同实例之间的像素信息交换。我们还引入了一个实例掩码和文本指导模块，该模块提取每个实例的实例掩码和文本表示，然后通过自我注意力与潜在特征进行融合，利用实例掩码来形成自我注意力掩码，防止实例文本引导其他区域的着色，从而减轻色彩绑定错误。此外，我们应用了一种多实例采样策略，该策略单独采样每个实例区域，然后融合结果。另外，我们利用现有的图像数据集上的大型视觉语言模型创建了一个专门的数据集 GPT-color，用于实例级别的着色任务。定性和定量实验表明，我们的模型和数据集相较于之前的模型和数据集表现更优。