LLM2D

摘要

arXiv:2412.06510v3 宣告类型: 替换-交叉摘要：异常合成是提高异常检测的重要增补方法。基于大规模预训练的知识，现有的文本到图像的异常合成方法主要侧重于文本信息或粗略对齐的视觉特征来引导整个生成过程。然而，这些方法通常缺乏足够的描述符来捕捉现实异常的复杂特征（例如，异常的细粒度视觉模式），限制了生成过程的真实性和通用性。为了解决这一问题，我们提出了一种新颖的异常合成框架，称为AnomalyControl，以学习跨模态语义特征作为引导信号，可以编码来自文本-图像参考提示的一般异常线索并提高合成异常样本的真实性。具体而言，AnomalyControl 采用灵活且不匹配的提示对（即文本-图像参考提示和目标文本提示），其中设计了一个跨模态语义建模（CSM）模块，从文本和视觉描述符中提取跨模态语义特征。然后，提出了异常-语义增强注意力（ASEA）机制，使CSM能够专注于异常的特定视觉模式，从而增强生成的异常特征的真实性和上下文相关性。将跨模态语义特征视为先验，设计了一个语义引导适配器（SGA），以编码有效的引导信号，实现充足且可控的合成过程。广泛的实验表明，与现有方法相比，AnomalyControl 在异常合成方面可以达到最先进的结果，在下游任务中表现出优越的性能。