arXiv:2502.14888v1 交叉类型: cross
摘要: 在本文中,我们利用特征单义性的 recent 进展从深度多模态模型中提取可解释特征,为模态差距提供数据驱动的理解。具体而言,我们研究了基于大量图像-文本对训练的 CLIP(对比语言-图像预训练)这一主流的视觉-语言表示模型。在为单模态模型开发的可解释性工具的基础上,我们扩展了这些方法来评估 CLIP 特征的多模态可解释性。此外,我们引入了模态主导度分数(MDS)来将每个特征的可解释性归因于其相应的模态。接下来,我们将 CLIP 特征转换为更具可解释性的空间,使我们能够将它们分为三个不同的类别:视觉特征(单模态)、语言特征(单模态)和视觉-语言特征(跨模态)。我们的研究发现,这种分类与不同模态的人类认知理解高度一致。我们还展示了这种特定于模态的特征在检测性别偏见、对抗攻击防御和文本到图像模型编辑方面的显著用途。这些结果表明,配备通用任务可解释性工具的大规模多模态模型为不同模态之间的关键联系和区别提供了有价值的见解。
arXiv:2502.14887v1 宣告类型: cross
摘要: 扩散模型最近已经展现出生成高质量图像的强大框架。虽然最近的研究已经探索了它们在时间序列预测中的应用,但这些方法在跨模态建模和有效转换视觉信息以捕捉时间模式方面面临重大挑战。在本文中,我们提出了一种名为LDM4TS的新框架,该框架利用潜在扩散模型的强大图像重建能力,用于视觉增强的时间序列预测。我们首次使用互补的转换技术将时间序列转换为多视图可视化表示,使模型能够利用预训练视觉编码器丰富的特征提取能力。随后,这些表示通过跨模态条件机制以及融合模块使用潜在扩散模型进行重建。实验结果表明,LDM4TS在时间序列预测任务中优于各种专门的预测模型。
arXiv:2502.14883v1 类别: cross
摘要:视觉是人类感知环境的主要方式,但blind和低视力(BLV)人士需要帮助理解他们的周围环境,尤其是在陌生环境中。随着基于语义系统的出现作为BLV用户的辅助工具,许多研究人员开始探索大型视觉-语言模型(LVLMs)的响应。然而,BLV用户对LVLMs多样化类型/风格的响应的偏好,尤其是用于导航辅助方面的偏好,仍然没有被研究。为了填补这一空白,我们首先构建了一个Eye4B数据集,其中包括1100个人类验证的户外/室内场景,每个场景有5-10个相关的请求。然后,我们进行了深入的用户研究,邀请了八位BLV用户从四个方面:恐惧感、非行动性、充足性和简洁性来评估他们对六种LVLMs的偏好。最后,我们引入了一个Eye4B基准,用于评估广泛使用的基于模型的图像-文本度量与我们收集的BLV偏好的对齐情况。我们的工作可以作为开发BLV意识的LVLMs到无障碍人工智能系统的指南。
arXiv:2502.14880v1 类型: cross
摘要:在无监督设置下的视觉异常检测经常难以区分正常样本和异常样本,因为异常样本的变异性非常广泛。最近,越来越多的研究专注于生成异常样本,以帮助检测器学习更有效的正常样本和异常样本之间的边界。然而,由于生成的异常样本通常源自随机因素,它们往往缺乏现实性。此外,随机生成的异常样本通常为构建有效边界提供了有限的支持,因为它们大多数与正常样本差异很大,远离边界。为了解决这些挑战,我们提出了关键知识增强(KKA)方法,该方法从大型语言模型(LLMs)中提取与异常相关的知识。具体来说,KKA 利用 LLMs 的广泛先验知识,基于正常样本生成有意义的异常样本。然后,KKA 根据生成的异常样本与正常样本的相似性将其分类为容易的异常样本和困难的异常样本。容易的异常样本与正常样本有显著差异,而困难的异常样本则与正常样本相似。KKA 迭代更新生成的异常样本,并逐渐增加困难异常样本的比例,以使检测器能够学习更有效的边界。实验结果表明,所提出的方法在保持低生成成本的同时,显著提高了各种视觉异常检测器的性能。CMG 的代码可以在 https://github.com/Anfeather/KKA 找到。
arXiv:2502.14874v1 宣告类型: cross
摘要: 这是一篇关于在人工智能时代数学和符号推理价值的文章。
arXiv:2502.14870v1 宣告类型: cross
摘要: 人工智能(AGI)的发展很可能是人类最具有决定性的技术进步之一。领先的人工智能实验室和科学家们呼吁全球优先考虑人工智能的安全性,指出其存在风险与核战争相当。然而,有关灾难性风险和人工智能对齐的研究常常受到专家甚至是其他人的怀疑。此外,有关人工智能存在风险的在线辩论开始变得部落化(例如,使用诸如“绝望论者”或“加速主义者”等贬义术语进行人身攻击)。直到现在,还没有系统性研究探讨专家们对人工智能安全性的信念模式和对人工智能安全概念的熟悉程度。我对111位人工智能专家进行了调查,了解他们对人工智能安全概念的熟悉程度、对人工智能安全的主要反对观点以及对安全论点的反应。我的研究发现表明,人工智能专家分为两种观点——“人工智能作为可控工具”和“人工智能作为不可控代理”的视角——在对人工智能安全性的重视程度上存在分歧。虽然大多数专家(78%)同意或强烈同意“技术人工智能研究人员应该关注灾难性风险”,但他们对具体的人工智能安全概念并不熟悉。例如,只有21%的受访专家听说过“手段趋同”这一基本概念,这一概念预测先进的AI系统倾向于追求一些共同的子目标(如自我保存)。最不关心安全的参与者对于这类概念最不熟悉,这表明有效的人工智能安全交流应从构建该领域的清晰概念基础开始。
arXiv:2502.14869v1 宣告类型: cross
摘要: 人工智能的潜在负面影响在全球范围内的影响迅速增强,这加剧了对负责任的AI治理的需要。尽管许多监管机构支持基于风险的方法,且公司和学术学者提出了多种风险缓解措施,但这些方法通常是以专家为中心的,因此缺乏对众多利益相关者的包容。确保AI政策符合民主期望需要优先考虑受影响方的声音和需求的方法。在本文中,我们开发了一种参与性和前瞻性的方法,以告知决策者和学术界,确保普通利益相关者的需要处于首要位置,丰富风险缓解策略的开发。该方法包括:(1) 把各种利益相关者责任分配到可能的负面影响缓解和预防策略中;(2) 探索这些策略对于普通民众的重要性及其优先级;(3) 通过政策事实单的形式呈现这些见解,即一种便于信息传达给政策过程的可消化格式。我们强调,该方法并非旨在取代决策者;我们的目标是提出一种信息丰富的方法,可以丰富缓解策略,并促进更具参与性的政策开发过程。
arXiv:2502.14868v1 宣告类型: cross
摘要:人工智能(AI)缺乏可解释性是行业和监管机构必须克服的第一个障碍,以减轻与该技术相关的风险。在问责制、伦理和公平性至关重要的领域,例如医疗保健、信用评分、执法和刑事司法系统,可解释性人工智能(XAI)的需求显而易见。在欧盟层面,可解释性是支撑人工智能法案的基本原则之一,尽管具体的XAI技术和要求尚未在实践中确定和测试。本文探讨了各种能够推进XAI的方法和技术,以及在人工智能治理和政策中实施可解释性原则所面临的挑战。最后,本文研究了将XAI集成到欧盟法律中面临的问题,强调标准设定、监督和执行的问题。
arXiv:2502.14007v1 类型: cross
摘要:在图像到图像转换中,结构指导允许对合成图像的形状进行精细控制。从用户指定的粗糙手绘草图生成高質量的真实图像是一项旨在对条件生成过程施加结构约束的任务。尽管从内容创作和学术研究的众多应用案例来看,这一前提非常吸引人,但由于自由手绘草图中存在的大量歧义性,该问题变得根本上具有挑战性。此外,形状一致性和真实生成之间的权衡问题进一步增加了该过程的复杂性。现有的基于生成对抗网络(GANs)的方法通常使用条件GAN或GAN反向,经常需要针对特定应用的数据和优化目标。最近引入的去噪扩散概率模型(DDPMs)在一般的图像合成中实现了低级视觉属性的生成飞跃。然而,直接在特定领域子任务上对大规模扩散模型进行重新训练往往由于庞大的计算成本和不足的数据而极其困难。在本文中,我们介绍了一种利用大规模扩散模型的特征泛化能力进行素描到图像转换的技术,而无需重新训练。特别是,我们使用一个可学习的轻量级映射网络,实现源域到目标域的潜在特征转换。实验结果表明,所提出的方法在定性和定量基准中均优于现有技术,能够从粗糙的手绘草图中生成高分辨率的真实图像。
arXiv:2111.14482v3 支持型:交叉
摘要:分割4K或6K超高清图像在图像分割中需要额外考虑计算量。常见的策略,如下采样、 patch裁剪和级联模型,无法很好地解决准确性和计算成本之间的平衡问题。受人类从粗略到精确层次连续区分物体的事实启发,我们为超高清分割精化任务提出了连续精化模型(Continuous Refinement Model,CRM)。CRM连续对齐特征图与精化目标,并聚合特征以重建这些图像的细节。此外,我们的CRM展示了其显著的泛化能力,能够在低分辨率训练图像与超高清测试图像之间填补分辨率差距。我们进行了定量性能评估和可视化,展示了我们提出的方法在图像分割精化方面的高效性和有效性。代码将在 https://github.com/dvlab-research/Entity 释放。