arXiv 论文列表

SelfDefend：LLM们以实用的方式防御模型破解企图

作者: Xunguang Wang, Daoyuan Wu, Zhenlan Ji, Zongjie Li, Pingchuan Ma, Shuai Wang, Yingjiu Li, Yang Liu, Ning Liu, Juergen Rahmel

arXiv:2406.05498v3 通告类型: replace-cross 摘要：监狱破解是一种新兴的对抗性攻击，它绕过了市场上现成的大语言模型（LLMs）所部署的安全对齐措施，并已演化成多种类别：基于人类的、基于优化的、基于生成的，以及最近的间接和多语言监狱破解。然而，实现一个实用的监狱破解防御是非常具有挑战性的，因为它不仅需要处理上述所有类型的监狱破解攻击，还需要对用户的提示几乎不引起任何延迟，并且要能够兼容开源和闭源的LLMs。受到传统安全概念中影子栈如何防御内存溢出攻击的启发，本文引入了一个通用的LLM监狱破解防御框架SelfDefend，该框架在一个检测状态下建立一个影子LLM作为防御实例，同时在正常栈中保护目标LLM实例（在正常回答状态下），并通过基于检查点的访问控制与之协作。SelfDefend的有效性基于我们的一项观察，即现有的LLM能够识别用户查询中的有害提示或意图，我们通过主流的GPT-3.5/4模型的实验证明了这一点，以对抗主要的监狱破解攻击。为了进一步提高防御的鲁棒性并降低成本，我们采用数据蒸馏方法来调整专用的开源防御模型。当部署用来保护GPT-3.5/4、Claude、Llama-2-7b/13b和Mistral时，这些模型在性能上优于七种最新的防御方法，并且在额外延迟方面显著低于GPT-4基于的SelfDefend，性能与GPT-4基于的SelfDefend相当。进一步的实验表明，调整后的模型能够抵御适应性监狱破解和提示注入。

发布时间: 2/6/2025

查看原文

一种基于Tsetlin机器复合体的高级图像处理优化工具箱

作者: Ylva Gr{\o}nnings{\ae}ter, Halvor S. Sm{\o}rvik, Ole-Christoffer Granmo

arXiv:2406.00704v2 宣告类型: replace-cross 摘要：Tsetlin机（TM）已经在MNIST、K-MNIST、F-MNIST和CIFAR-2等多个图像分类基准测试中取得了竞争力的结果。然而，对于TM而言，彩色图像分类仍然处于初期阶段，CIFAR-10 是跟踪进展的关键点。在过去的几年里，随着Drop Clause的引入，TM在CIFAR-10上的准确率从2020年的约61%提高到了2023年的75.1%。在本文中，我们利用最近提出的TM Composites架构，并引入了一系列使用各种图像处理技术的TM专家。这些技术包括Canny边缘检测、方向直方图、自适应均值阈值、自适应高斯阈值、Otsu阈值、颜色温度计以及自适应颜色温度计。此外，我们进行了严格的超参数搜索，发现了 TM 专家中的多个最佳超参数。结果是在 TM 上实现了 CIFAR-10 新的最新成果，准确率为82.8%。总之，我们的TM专家工具箱为新的TM应用奠定了基础，并为TM Composites在图像分析领域的进一步研究树立了里程碑。

发布时间: 2/6/2025

查看原文

CoS: 提高个性化并减轻偏差ewith上下文引导

作者: Jerry Zhi-Yang He, Sashrika Pandey, Mariah L. Schrum, Anca Dragan

arXiv:2405.01768v2 更新类型: replace-cross 摘要: 当查询大型语言模型(LLM)时，上下文，即特定于最终用户的个人、人口统计和文化信息，可以显著影响LLM的响应。例如，要求模型用上下文“I是一个学步儿”来解释牛顿第二定律，其答案与用上下文“I是一个物理教授”解释会有很大不同。适当使用上下文可以使LLM生成个性化响应；而不当的上下文影响可能导致刻板和潜在有害的生成（比如将“女性”与“家庭女仆”联系起来）。在实践中，利用上下文时把握合适的平衡是一个复杂且往往具有情境依赖性的挑战。为了解决这一挑战，一个常见的方法是通过上下文适当的响应对LLM进行微调。然而，这种方法既昂贵又耗时，并且对于不同情境下的最终用户来说并不可控。在这项工作中，我们提出了上下文指引(CoS)——一种简单的无需训练的方法，可以在推理时便捷地应用于自回归LLM。通过衡量上下文影响的词汇预测概率并在其中进行调节，我们的方法使实践者能够根据其具体的使用案例和最终用户基础确定适当的上下文影响水平。我们展示了CoS的各种应用场景，包括放大上下文影响以实现更好的个性化以及降低不必要的影响以减少模型偏见。此外，我们展示了可以将CoS与贝叶斯推理结合使用来量化互联网上的仇恨言论程度。我们证明了CoS在最先进的LLM和基准测试中的有效性。

发布时间: 2/6/2025

查看原文

全局反事实方向

作者: Bartlomiej Sobieski, Przemys{\l}aw Biecek

arXiv:2404.12488v3 通知类型: 替换-交叉摘要: 尽管在生成视觉反事实解释的方法开发方面取得了不断增加的进步，尤其是在去噪扩散概率模型的兴起之后，之前的 works 将其视为一种完全局部的技术。在本文中，我们采取了使它们全球化的第一步。具体而言，我们发现扩散自编码器的潜在空间以全局方向的形式编码了给定分类器的推理过程。我们提出了一种基于代理的新颖方法，仅使用单张图像以完全黑盒的方式发现两种类型的方向。具体来说，g 方向允许在图像数据集上翻转给定分类器的决策，而 h 方向则进一步增加了解释的多样性。我们将它们统称为全局反事实方向 (GCD)。此外，我们展示了 GCD 可以自然地与潜在积分梯度相结合，形成一种新的黑盒归因方法，同时提高对反事实解释的理解。我们在现有基准上验证了我们的方法，并展示了它适用于实际应用场景。

发布时间: 2/6/2025

查看原文

梯度泄漏在联邦学习中的研究概览

作者: Jiacheng Du, Jiahui Hu, Zhibo Wang, Peng Sun, Neil Zhenqiang Gong, Kui Ren, Chun Chen

arXiv:2404.05403v2 宣告类型: 替换-交叉摘要: 联邦学习（FL）使多个客户端在不暴露原始数据的情况下进行协作模型训练。然而，近期的研究表明，在FL中，客户端的私有训练数据可以从共享的梯度中重建，这种漏洞被称为梯度反转攻击（GIAs）。虽然GIAs在理想设置和辅助假设下已经显示出有效性，但它们实际效果对抗实际的FL系统仍然未被充分探索。为填补这一空白，我们在本文中进行了一项全面的研究。我们首先进行了GIAs的文献综述，建立了时间线以追溯其演变过程，并发展了一种系统化方法以揭示其固有的威胁。通过重新思考GIAs在实际FL系统中的情况，我们确定了三项影响GIAs有效性的重要方面：**训练设置**、**模型**和**后处理**。根据这些方面，我们对现有的最佳GIAs在多种设置下的理论和实证评估进行了广泛的研究。我们的发现突显了GIAs有明显的**限制**、**脆弱性**以及**易于防守**。具体而言，GIAs在对抗实际本地训练设置时显示出固有的限制。此外，它们的效果对训练模型高度敏感，甚至简单的梯度后处理技术就能作为有效的防御手段。我们的研究为GIAs在实际FL系统中的有限威胁提供了宝贵的见解。通过纠正先前的误解，我们希望激励更准确和现实的研究。

发布时间: 2/6/2025

查看原文

跨语言文本分类迁移：关于乌克兰语的情况

作者: Daryna Dementieva, Valeriia Khylenko, Georg Groh

arXiv:2404.02043v2 宣告类型: replace-cross 摘要: 尽管自然语言处理（NLP）文本分类领域存在大量的标注数据集，但各种语言之间数据可用性的持续不平衡依然明显。为了支持NLP模型的进一步公平发展，探索有效知识向新语言转移的可能性是关键。乌克兰语尤其是一个仍然可以从跨语言方法的持续改进中受益的语言。据我们所知，典型的文本分类任务（如不同类型的风格、有害言论，或文本关系）的乌克兰语语料库极其缺乏。然而，从零开始收集这样的语料库所需资源是可以理解的。在这项工作中，我们利用最新的NLP进展，探索避免手动数据整理的跨语言知识转移方法：大规模多语言编码器和翻译系统、LLM和语言适配器。我们在三种文本分类任务——毒性分类、正式程度分类和自然语言推理（NLI）——上测试了这些方法，提供了每种任务的最佳设置的“配方”。

发布时间: 2/6/2025

查看原文

语言模型编码上的扩散对蛋白质序列生成

作者: Viacheslav Meshchaninov, Pavel Strashnov, Andrey Shevtsov, Fedor Nikolaev, Nikita Ivanisenko, Olga Kardymon, Dmitry Vetrov

arXiv:2403.03726v2 宣布类型: 替换-交叉摘要：蛋白质序列设计已通过离散扩散和自回归方法取得了显著进展，但连续扩散的潜力尚未得到充分探索。在此，我们介绍了DiMA，这是一种基于蛋白质语言模型表示的隐空间扩散框架。通过系统地探索架构选择和扩散组件，我们开发了一种稳健的方法，该方法可以在从8M到3B参数的多种蛋白质编码器之间进行泛化。我们证明了我们的框架在仅序列(SMG-2, ESMc)、双可解码(CHEAP)和多模态(SaProt)表示下，使用相同的架构和训练方法都能实现一致的高性能。我们使用多种度量标准，涵盖了两种蛋白质模态下的质量和多样性、新颖性和生成蛋白质的分布匹配，对现有方法与DiMA进行广泛评估。DiMA始终能够生成新颖、高质量和多样性的蛋白质序列，并在与自回归、离散扩散和流匹配语言模型的基线方法相比时表现出很好的结果。该模型展示了多功能性，支持条件生成任务，包括蛋白质家族生成、模式骨架和填空，以及特定折叠序列设计。这项工作提供了一种适用于蛋白质序列生成的通用连续扩散框架，不仅提供了架构见解，还在各种蛋白质设计场景中具有实际应用性。

发布时间: 2/6/2025

查看原文

ImgTrojan: 用一张图片突破视觉-语言模型

作者: Xijia Tao, Shuai Zhong, Lei Li, Qi Liu, Lingpeng Kong

arXiv:2403.02910v3 安全公告类型: 替换-交叉摘要：对大型语言模型（LLMs）与人类价值观的对齐研究越来越受到关注。然而，它们与视觉模块或视觉语言模型（VLMs）的集成安全性问题仍相对较少被探索。在本文中，我们提出了一种针对VLMs的新颖脱模攻击，旨在当用户输入有害指令时，绕过其安全屏障。假设包含受污染的（图像，文本）数据对的训练数据。通过用恶意脱模提示替换原始文本说明，我们的方法可以对受污染的图像执行脱模攻击。此外，我们分析了受污染数据比例和可训练参数位置对攻击成功率的影响。为了评估，我们设计了两个度量标准来量化攻击的成功率和隐秘性。同时提供了一份有害指令列表，并提供了一个衡量攻击效果的基准。通过与基线方法的比较，展示了我们攻击的有效性。

发布时间: 2/6/2025

查看原文

因果平等保护作为算法公平性

作者: Marcello Di Bello, Nicol\`o Cangiotti, Michele Loi

arXiv:2402.12062v4 类型: replace-cross 摘要：通过结合统计证据的哲学文献和算法公平的跨学科文献，我们重新审视了对分类平等的近期反对意见，并基于算法公平的因果分析和预测性证据与诊断性证据的区别进行了考察。我们将重点放在刑事审判中作为黑箱分类算法的情况，其中被告会被分为定罪或无罪两个组。我们提出了一项新的原则——因果平等保护，该原则将分类平等与因果方法结合起来。在do-因果 calculus中，因果平等保护要求个体不应因其受保护或社会上显著的特征而面临不均匀的分类错误风险。然而，如果使用受保护的特征可以平抑这些风险，那么明确使用受保护特征则是必要的。

发布时间: 2/6/2025

查看原文

通过进化过程建模增强跨域链接预测

作者: Xuanwen Huang, Wei Chow, Yize Zhu, Yang Wang, Ziwei Chai, Chunping Wang, Lei Chen, Yang Yang

arXiv:2402.02168v2 跨域链接预测类型: 替换交叉摘要: 本文提出了一种动态图模型 DyExpert，用于跨域链接预测。它可以明确地建模历史演变过程，学习特定下游图的演变模式，并据此进行模式特异性的链接预测。DyExpert 采用仅解码的变压器，并通过结合演变建模和链接预测的 \textit{条件链接生成} 实现高效并行训练和推理。DyExpert 使用来自多种领域的广泛动态图进行训练，包含 600 万动态边。针对八个未见过的图进行的广泛实验表明，DyExpert 在跨域链接预测方面达到了最先进的性能。与相同设置下的高级基线相比，DyExpert 在八个图上的平均精确度平均提高了 11.40%。更令人印象深刻的是，DyExpert 在六个未见过的图上超过了 8 个高级基线的完全监督性能。

发布时间: 2/6/2025

查看原文