arXiv:2504.13774v1 宣告类型: cross
摘要: 大型语言模型(LLMs)最近彻底改变了语言处理任务,但同时也带来了伦理和法律问题。LLMs 有倾向于记忆训练数据中可能涉及隐私或版权的信息的趋势,这些信息最终可能在推理时传递给终端用户。当这种情况发生时,一个简单的解决方案是从排除不希望的数据开始重新训练整个模型。虽然这可以确保目标数据已被遗忘,但对于LLMs来说,这也是非常昂贵的。近似遗忘提供了一个更高效的替代方案,因为它涉及对训练后的模型本身进行事后修改,以防止不受欢迎的结果,但缺乏遗忘的保证,因为它仅依赖于经验证据。在这项工作中,我们提出了DP2Unlearning,这是一种新颖的LLM遗忘框架,它提供了比从头到尾在保留数据上重新训练LLM更低成本的正式遗忘保证。DP2Unlearning 包括使用ε-差分隐私(DP)对文本数据进行训练,之后可以利用与所选ε相关的披露保证实现高效的遗忘。我们的实验表明,DP2Unlearning 在遗忘后的模型性能与从头到尾在保留数据上重新训练LLM(即黄金标准精确遗忘)相当,但在遗忘成本大约减半的情况下实现了这一点。此外,在合理的计算成本下,它在保持模型遗忘后的效用和有效遗忘目标信息方面优于近似遗忘方法。
arXiv:2504.13763v1 宣告类型: cross
摘要: Logit Lens 是一种广泛应用的方法,用于 transformer 基础语言模型的机理可解释性,它通过将内部表示投影到输出词汇空间,使得分析这些表示在各层中如何演化成为可能。虽然将 Logit Lens 应用于视觉变换器 (ViTs) 在技术上是直接的,但其直接使用在捕获视觉表示的丰富性方面存在局限。基于 Toker 等人 (2024)~\cite{Toker2024-ve} 的工作,他们介绍了用于可视化文本到图像扩散模型中的文本编码器中间表示的扩散透镜 (Diffusion Lens),我们展示了虽然 Diffusion Lens 可以有效地可视化图像编码器中的残差流表示,但它无法捕捉各个子模块的直接贡献。为克服这一局限,我们提出了 \textbf{扩散引导透镜} (Diffusion Steering Lens, DSL),这是一种无需训练的新颖方法,它引导子模块输出并跟踪后续的间接贡献。我们通过干预性研究验证了该方法,表明 DSL 为 ViTs 中的内部处理提供了直观且可靠的解释。
arXiv:2504.13756v1 类别:交叉学科
摘要:稀疏自动编码器(SAEs)是解释大型语言模型激活的一个流行工具,但它们在解决解释性开放问题方面的适用性仍然不清楚。在本文中,我们通过使用SAEs加深了我们对上下文学习机制(ICL)的理解,展示了它们的有效性。我们识别出一些抽象的SAE特征,这些特征(i)编码了模型执行任务的知识,(ii)并因果地诱发了零样本任务。这与之前的工作一致,这些工作表明ICL是由任务向量介导的。我们进一步证明,这些任务向量可以很好地由SAE潜在向量的稀疏和近似表示,包括这些执行任务的特征。为了探索ICL机制,我们将Marks等人(2024)的稀疏特征电路方法进行改编,使其适用于参数量大30倍的Gemma-1 2B模型,并适用于更复杂的ICL任务。通过电路发现,我们发现了与相应SAE潜在向量早期激活的任务检测特征,这些特征可以检测任务是否已执行。这些特征通过注意和MLP子层与执行任务的特征之间存在因果联系。
arXiv:2504.13754v1 交叉公告类型:cross
摘要:神经母细胞瘤是一种源自肾上腺的儿童实体恶性肿瘤,具有显著的临床异质性。及时准确地从苏木精和伊红染色的全切片图像中进行病理诊断对于患者的预后至关重要。然而,目前的诊断实践主要依赖于病理学家的主观手工检查,导致准确性不一致。现有的自动化全切片图像分类方法面临可解释性差、特征提取能力有限和高计算成本等问题,限制了其实用的临床部署。为了克服这些限制,我们提出了CMSwinKAN,一种基于对比学习的多尺度特征融合模型,专为病理图像分类设计,通过在其多层感知机和分类头模块中整合核激活网络来增强Swin Transformer架构,显著提高了可解释性和准确性。通过融合多尺度特征并利用对比学习策略,CMSwinKAN 模拟了临床医生的综合方法,有效地捕捉到了全局和局部组织特征。此外,我们引入了一种启发式软投票机制,该机制由临床洞察指导,可以无缝地将切片级预测与全切片图像级分类连接起来。我们使用与我们的合作伙伴医院合作建立的PpNTs数据集和公开可访问的BreakHis数据集对CMSwinKAN进行了验证。结果显示,CMSwinKAN 在大数据集上预训练的现有病理专用模型中表现更佳。我们的源代码可在 https://github.com/JSLiam94/CMSwinKAN 获取。
arXiv:2504.13751v1 Announce Type: cross
摘要:尽管第一份基于组件的软件开发(CBSD)研究已经进行了四十余年,但行业内至今仍没有一种被广泛接受的组件选择标准方法或工具。行业与学术界的差距导致了这种被接受的工具的缺乏。我们对近100名从事基于组件的软件工程实践或研究的人进行了混合方法调查,以更好地了解行业面临的挑战,探讨这些问题的解决方案,并了解当前在组件选择中采用的最佳实践。我们还旨在从行业角度识别和优先考虑组件选择的质量标准。针对呼吁CBSD组件选择工具结合最新技术进步的呼吁,我们也探讨了专业人士对人工智能驱动工具的观点,包括现有和设想的工具。
arXiv:2504.13745v1 类型:交叉
摘要:扩散模型已经彻底改变了文本到图像(T2I)合成,产生了高质量、逼真的图像。然而,它们仍然难以恰当地呈现文本提示中描述的空间关系。为了应对T2I生成中缺乏的空间信息,现有方法通常使用外部网络条件和预定义布局,导致计算成本提高和灵活性降低。我们的方法基于一个精心筛选的空间明确提示数据集,这些提示从LAION-400M精心提取和合成,以确保文本描述与空间布局之间精确对齐。除了这个数据集,我们还提出了基于低秩适应的可扩展微调框架ESPLoRA,该框架专门设计用于增强生成模型的空间一致性,而不会增加生成时间或牺牲输出质量。除了ESPLoRA,我们还提出了基于几何约束的细化评估标准,捕获诸如“在...前面”或“在...后面”之类的三维空间关系。这些指标还揭示了T2I模型中的空间偏见,即使这些偏见并未完全消除,我们的TORE算法也可以战略性地利用这些偏见来进一步提高生成图像的空间一致性。我们的方法在现有空间一致性基准测试中优于当前最先进的框架CoMPaSS,实现了13.33%的性能提升。
arXiv:2504.13730v1 类型:跨域
摘要:开源情报提供了大量未结构化的文本数据,可以用于评估领土控制情况。我们介绍了CONTACT,一个使用大规模语言模型(LLMs)和最少监督的领土控制预测框架。我们评估了两种方法:基于嵌入的少量样本分类器SetFit,以及应用于BLOOMZ-560m的提示调优方法,BLOOMZ-560m是一个多语言生成型LLM。我们的模型是在包括叙利亚和伊拉克的ISIS活动的小型手标注新闻文章数据集上训练的,使用基于提示的提取控制相关信号,如军事行动、伤亡情况和地理位置参考。我们展示了基于BLOOMZ的模型优于SetFit基线,并且基于提示的监督在资源有限的环境中提高了泛化能力。CONTACT展示了使用少量样本方法微调的LLMs如何减少标注负担,并支持从开源情报(OSINT)流中的开放性数据中进行结构化推理。我们的代码在https://github.com/PaulKMandal/CONTACT/ 可用。
arXiv:2504.13717v1 交叉公告类型:跨学科
摘要:本文将深度学习(DL)与人类推理能力和需求相结合,以实现更具效率、可解释性和鲁棒性的图像分类。我们从三个角度进行探讨:可解释性、因果性和生物学视觉。在介绍背景和引言后,本工作将深入到具体的章节。首先,我们评估了神经网络在医学图像可视化技术的应用,并验证了一种设计可解释性的方法,用于乳腺肿块分类。接着,我们在可解释人工智能(XAI)与因果性交汇处进行了全面的综述,引入了一种通用框架来组织过去和未来的研究,为基础第二视角的探讨奠定基础。沿着因果性方向,我们提出了一种全新的模块,利用医学图像中特征共现现象,从而提高了预测的有效性和可解释性。我们还引入了一种名为CROCODILE的一般框架,整合了因果概念、对比学习、特征解耦和先验知识,以增强泛化能力。最后,我们探讨了生物学视觉,研究人类如何识别物体,并提出了CoCoReco网络,这是一种受连接启发且具有上下文感知注意机制的网络。总的来说,我们的关键发现包括:(i) 简单的激活最大化在医学成像DL模型中缺乏洞察力;(ii) 典型部分学习既有效又与放射学一致;(iii) 可解释AI和因果ML紧密相连;(iv) 无需先验信息即可利用弱因果信号来提高性能和可解释性;(v) 我们的框架在医学领域和离域数据上都能泛化;(vi) 采用生物电路模式可以改进与人类相一致的识别。本文为与人类相一致的DL提供了贡献,并强调了研究和临床应用之间的路径,这对提高信任度、诊断准确性以及安全部署具有重要意义。
arXiv:2504.13700v1 交叉公告类型:交叉学科
摘要:近年来,大规模语言模型(LLMs)在通过简单的自然语言命令自动化可视化创作过程方面显示出巨大的潜力。然而,使用自然语言指示LLMs在传达可视化意图方面存在精度和表现力的限制,导致误解和耗时的迭代。为了解决这些局限性,我们进行了一项实证研究,以了解在可视化创作上下文中,LLMs如何解读模糊或不完整的文本提示,并识别导致LLMs误解用户意图的条件。根据研究发现,我们引入了视觉提示作为文本提示的补充输入类型,以澄清用户意图并提高LLMs的解读能力。为了探索多模态提示在可视化创作中的潜力,我们设计了VisPilot,使用户能够使用包括文本、草图和对现有可视化直接操作的多模态提示轻松创建可视化。通过两个案例研究和受控用户研究,我们证明,与仅使用文本提示的方法相比,VisPilot为用户提供了在不降低整体任务效率的情况下创建可视化的一种更直观的方式。此外,我们分析了不同可视化任务中文本和视觉提示的影响。我们的发现突出了在可视化创作中使用多模态提示以提高LLMs的可用性的重要性。我们讨论了未来可视化系统的设计理念,并提供了关于多模态提示如何增强创意可视化任务中的人工智能协作的见解。所有材料均可在https://OSF.IO/2QRAK 查看。
arXiv:2504.13682v1 交叉公告类型: 综合
摘要:热成像技术能够显著增强智能无人航空车辆(UAV)在严苛环境中的应用。然而,热传感器固有的低分辨率导致细节不足和边界模糊。超分辨率(SR)提供了一种有潜力的解决方案,但现有的大多数SR方法都是为固定尺度的SR设计的。这些方法在实际应用中计算成本高昂且不够灵活。为了解决上述问题,本文提出了一个用于UAV的新型任意尺度热超分辨率方法(AnyTSR),并在单一模型中实现。具体而言,提出了一种新的图像编码器,明确赋予特定特征代码,以实现更准确和灵活的表示。此外,通过有效地将坐标偏移信息嵌入局部特征集合中,提出了一种创新的任意尺度上采样器,以更好地理解空间关系并减少伪影。此外,为热超分辨率任务构建了一个新的数据集(UAV-TSR),涵盖了陆地和水景场景。实验结果表明,所提出的方法在所有尺度因子上一致优于现有最先进的方法,并生成了更准确和详细的高分辨率图像。代码位于 https://github.com/vision4robotics/AnyTSR。