arXiv:2504.08919v1 类型:交叉
摘要:后验解释方法通过将预测归因于输入特征来提供解释。自然的解释期望解释输入如何导致预测。因此,一个基本问题出现了:这些解释是否无意中逆转了输入与输出之间的自然关系?具体来说,这些解释是否在反映真实的决策过程,而不是合理化预测结果?为了调查这种解释反转,我们提出了反转量化(IQ)框架,该框架量化了解释依赖于输出的程度以及偏离真实的输入-输出关系的程度。通过该框架,我们证明在合成数据集上,广泛使用的LIME和SHAP等方法容易发生这种反转,特别是在存在虚假相关性的条件下,这种反转在表格、图像和文本领域尤为常见。最后,我们提出了戳穿重现实验(RBP),这是一种简单且模型无关的后验解释方法增强,它整合了前向扰动检查。此外,我们证明在IQ框架下,RBP理论上可以保证解释反转的缓解。从实验上来看,例如,在合成数据上,RBP可以将经典的后验解释方法在各个领域中的反转程度平均减少1.8%。
arXiv:2504.08915v1 类型: cross
摘要: 视觉基础模型 (VFMs) 是大型预训练模型,构成各种视觉任务的基础。细调 VFMs 可以进一步释放其在下游任务或场景中的潜力。然而,VFMs 经常包含显著的特征冗余,这可能会限制其对新任务的适应能力。在本文中,我们研究了 segment anything 模型 (SAM) 中的冗余,并提出了一种无参数的细调方法来解决这一问题。与传统的调整参数的细调方法不同,我们的方法强调选择、重用和增强预训练特征,提供了模型细调的新视角。具体来说,我们引入了一种基于模型输出差异的通道选择算法,以识别冗余且有效的通道。通过有选择地用更有效的通道替换冗余通道,我们过滤掉不太有用的功能,并重新利用更相关的功能以适应下游任务,从而增强任务特定的功能表示。在跨域和同域数据集上的实验验证了我们方法的效率和有效性。值得注意的是,我们的方法可以无缝集成现有的细调策略(例如 LoRA、Adapter),进一步提高已细调模型的性能。此外,由于我们的通道选择仅涉及模型推理,我们的方法显著减少了计算和 GPU 内存开销。
arXiv:2504.08912v1 论文类型:交叉学科
摘要:双曲神经网络已成为建模不同模态层次化数据的强大工具。最近的研究表明,基础模型中的 token 分布表现出无标度特性,这表明对于许多预训练和下游任务,双曲空间比欧几里得空间更适合作为环境空间。然而,现有的工具缺乏构建双曲基础模型的关键组件,这使得充分利用最近的进展变得困难。我们介绍了 HyperCore,这是一个全面的开源框架,提供了构建跨多种模态的双曲基础模型的核心模块。HyperCore 的模块可以轻松组合,以开发全新的双曲基础模型,从而消除从头大量修改欧几里得模块和可能冗余的研究努力的需求。为了展示其灵活性,我们构建并测试了第一个完全双曲的视觉变换器(LViT),带有微调管道,第一个完全双曲的多模态 CLIP 模型(L-CLIP)以及结合了双曲图编码器的混合 Graph RAG。我们的实验表明,LViT 在性能上优于其欧几里得对应物。此外,我们在双曲图神经网络、卷积神经网络、变换器和视觉变换器上进行基准测试和再现实验,以突出 HyperCore 的优势。
arXiv:2504.08906v1 announces 类型: cross
摘要:Segment Anything 模型(SAM)是一种广泛使用的视觉基础模型,具有多种应用,包括图像分割、检测和跟踪。鉴于 SAM 的广泛应用,理解其在对抗攻击下的鲁棒性对于实际部署至关重要。然而,对 SAM 的鲁棒性研究仍处于早期阶段。现有的攻击往往忽视了提示在评估 SAM 的鲁棒性中的作用,而在防御方法的探索方面也相对不足。为了解决这些差距,本文提出了一种对抗鲁棒性框架,旨在评估和增强 SAM 的鲁棒性。具体来说,我们引入了一种跨提示攻击方法,以增强不同提示类型之间的攻击可移植性。除了攻击之外,我们还提出了一种参数适配策略,以防御 SAM 面对各种对抗性攻击。为了平衡鲁棒性和准确性,我们使用奇异值分解(SVD)来约束可训练参数的空间,其中仅有奇异值是可调整的。实验表明,我们的跨提示攻击方法在 SAM 和 SAM 2 上的攻击成功率方面超过了先前的方法。通过仅适配 512 个参数,我们获得了至少 15% 的平均交叉并集(mIoU)相对于各种对抗性攻击的改进。与先前的防御方法相比,我们的方法在最大限度地保持 SAM 的原始性能的同时增强了其鲁棒性。
arXiv:2504.08896v1 交叉公告类型
摘要:在基础模型和大型语言模型(LLMs)的时代,欧几里得空间一直是机器学习架构的事实几何背景。然而,最近的研究表明,这种选择带来了根本性的限制。在大规模上,真实世界的数据往往表现出内在的非欧几里得结构,例如多向关系、层次结构、对称性和非各向同性缩放,这些结构存在于语言、视觉和自然科学等多个领域。在欧几里得空间的限制下有效捕捉这些结构是具有挑战性的。本文立场认为,超越欧几里得几何不仅是可选的增强,而是为了新一代基础模型遵循扩展律的必要性。通过采用这些几何结构,基础模型可以更有效地利用上述结构。面向任务的适应性可以通过动态重新配置嵌入以匹配下游应用的几何结构来进一步提高效率和表示能力。我们的立场由一系列对流行基础模型的理论和实验研究支持。最后,我们概述了一个将非欧几里得几何整合到基础模型中的路线图,包括使用微调、从头训练和混合方法构建几何基础模型的策略。
arXiv:2504.08874v1 交叉公告类型
摘要:机器学习和贝叶斯优化(BO)算法可以显著加快化学反应的优化过程。通过迁移学习,BO算法可以在数据不足的情况下通过利用预先存在的化学信息或直接优化任务之外的数据(即源数据)而增强其效果。大规模语言模型(LLMs)已经证明,基础训练数据中包含的化学信息可以使它们在处理化学数据时具有实用性。此外,它们可以被增强并与相关的多种模态的源化学数据相结合,这些数据与优化任务相关。在这项工作中,我们研究如何从LLMs中提取化学信息并用于迁移学习以加速对反应条件的BO,从而最大化产量。具体来说,我们展示了通过调查性提示方案和偏好学习可以推断出一个用于建模嵌入在LLMs中的化学信息的效用函数;尽管在零样本设置中操作,我们发现该效用函数与参数空间中的真实实验测量(产量)显示出适度的相关性。此外,我们展示了如何利用该效用函数来聚焦于参数空间中的有前途的区域,从而改善初始BO查询的产量,并在六个数据集中研究的一半中增强了优化过程。总体而言,我们认为这项工作是缩小嵌入在LLMs中的化学知识与基于原理的BO方法加速反应优化能力之间差距的一步。
arXiv:2504.08872v1 交叉
摘要:在层次联邦学习(HFL)中,在物联网设备与云服务器之间放置边缘网络可以提高通信效率,同时不损害数据隐私。然而,连接到同一边缘的设备通常具有地理或上下文相似性,这导致边缘层面的数据异质性多样化,每个边缘具有不同的标签子集,这意味着在设备层面异质性之上存在边缘层面的非独立且非同分布(non-IID)性质。这种层次上的非-IID 性质暗示每个边缘有自己的优化目标,在 HFL 研究中已被忽略。因此,现有的边缘容纳型 HFL 在各种层次非-IID 场景下的边缘性能不一致。为了确保在具有多样化边缘层面非-IID 数据时具有稳健的性能,我们提出了一种个性化层次边缘增强联邦学习(PHE-FL),该方法将每个边缘模型个性化,使其在每个边缘独特的类分布上表现良好。我们在四种不同层级非-IID 性的场景中评估了 PHE-FL,其中包括极端的物联网设备层非-IID 性。为了准确评估个性化方法的有效性,我们在每个边缘服务器上而不是云服务器上部署了测试集,并使用了平衡和不平衡的测试集。大量的实验表明,在相同的训练轮次下,与包含边缘网络的现有联邦学习方法相比,PHE-FL 的准确性最高可提高 83%。此外,PHE-FL 表现出改进的稳定性,这体现在与两层(边缘和云)聚合的最新 FedAvg 相比,其准确性的波动减少。
arXiv:2504.08871v1 交叉类型公告
摘要:近期大型语言模型(LLMs)的发展已经改变了沟通方式,但它们在安全消息传递中的作用仍处于未被充分探索的状态,尤其是在监视密集型环境中。同时,世界各地的许多政府正在提出立法来检测、植入后门,甚至禁止加密通信。这强调了需要在开放渠道上以人类似的文本进行隐蔽且安全通信的替代方法。我们提出了一种新型加密嵌入框架,能够在公共聊天渠道上实现人类似的人机生成文本的隐蔽公钥或对称密钥加密通信。我们的框架的一些独特特性包括:1. 该框架不依赖于具体的LLM模型,即参与者可以独立使用不同的本地LLM模型;2. 该框架不依赖于预量子或后量子;3. 该框架确保与人类似的聊天生成文本无差异。因此,该框架在传统加密可被检测和限制的情况下提供了一个可行的替代方案。
arXiv:2504.08866v1 安全类型:跨域
摘要:尽管深度视觉模型的表现令人印象深刻,但它们仍然容易受到可转移的黑盒对抗攻击的影响。从根本上说,这些攻击以目标模型无关的方式制造扰动。然而,令人惊讶的是,我们发现现有方法在这一领域无意中依赖了违背黑盒假设的各种先验知识,例如用于训练目标模型的数据集的可用性,以及目标模型中类别的数量。因此,文献未能充分阐述可转移的黑盒攻击的真实威力。我们提供了这些偏差的实证研究,并提出了一种框架,以帮助进行无先验知识的透明研究。利用我们的框架,我们分析了目标模型数据和类别数量的先验知识在攻击性能中的作用。我们还基于我们的分析提供了几个有趣的见解,并表明先验知识会导致可迁移性评分的夸大。最后,我们将我们的框架扩展到基于查询的攻击。这一扩展启发了一种新颖的图像融合技术,用于有效训练替代模型的数据准备。
arXiv:2504.08863v1 类型: cross
摘要: 作为智能代理的大型语言模型(LLMs)越来越多地应用于涉及人类互动的场景中,这引发了对LLMs是否忠实于地区间文化变化的严重关切。已有许多研究从不同角度探讨了这一问题,发现LLMs的文化输出中存在偏见。为了获得更全面的视角,在这项工作中,我们首次进行大规模评估,评估10个LLM在20个国家的文化和语言方面的情况。我们使用著名的文化价值观问卷,并仔细分析LLM输出与人类真相得分,全面研究了LLMs在不同国家和不同模型之间的文化一致性。我们的研究发现,所有模型的输出代表了适度的文化中间地带。鉴于整体偏差,我们提出了一个一致性度量标准,指出美国是最一致的国家,而GLM-4在与文化价值观的一致性方面表现最佳。深入调查还揭示了模型起源、提示语言和价值观维度对文化输出的影响。具体来说,无论模型源自何处,它们与美国的文化一致性都优于与中国的一致性。这些结论提供了如何更好地使LLMs与各种文化对齐的见解,并激发了进一步讨论LLMs传播文化偏见的可能性及需要更多文化适应性模型的必要性。