arXiv 论文列表

RepliBench: 评估语言模型代理的自主复制能力

作者: Sid Black, Asa Cooper Stickland, Jake Pencharz, Oliver Sourbut, Michael Schmatz, Jay Bailey, Ollie Matthews, Ben Millwood, Alex Remedios, Alan Cooney

arXiv:2504.18565v1 安全公告类型：跨领域摘要：语言模型代理的不可控自主复制构成了一个关键的安全风险。为了更好地理解这一风险，我们介绍了RepliBench，这是一个评估套件，旨在衡量自主复制能力。RepliBench源于这些能力的核心领域的分解，涵盖了四个核心领域：获取资源、泄露模型权重、在计算资源上复制和在一个平台上持久存在很长时间。我们创建了20个新的任务家族，其中包含86个单独的任务。我们评估了5个前沿模型，并发现它们目前还不构成自我复制的可信威胁，但在许多组件上表现良好，并且正在快速改进。模型可以从云计算提供商部署实例、编写自我传播的程序，并在简单的安全设置下泄露模型权重，但在通过KYC检查或设置稳健且持久的代理部署方面存在困难。总体而言，我们评估的最佳模型（Claude 3.7 Sonnet）在15/20个任务家族中获得了超过50%的通过率@10，而在最难变体的9/20家族中也获得了超过50%的通过率@10。这些发现表明，在这些剩余领域取得改进或在人类协助下，自主复制能力可能会很快出现。

发布时间: 4/29/2025

查看原文

DualBreach: 通过目标驱动初始化和多目标优化实现高效的双重越狱

作者: Xinzhe Huang, Kedong Xiu, Tianhang Zheng, Churui Zeng, Wangze Ni, Zhan Qiin, Kui Ren, Chun Chen

arXiv:2504.18564v1 安全类型: cross 摘要: 最近的研究集中在探索大型语言模型（LLMs）的漏洞上，旨在从LLMs中引出有害或敏感的内容。然而，由于对双重突破——同时针对LLMs和防护措施的攻击的研究不足，现有的攻击在试图绕过由防护措施保护的安全对齐的LLMs时效果有限。因此，在本文中，我们提出了DualBreach，这是一种目标导向的双重突破框架。DualBreach采用目标导向初始化（TDI）策略动态构建初始提示，并结合了多目标优化（MTO）方法，利用近似梯度在防护措施和LLMs之间同时适应提示，从而同时节省查询次数并实现高双重突破成功率。对于黑盒防护措施，DualBreach要么使用一个强大的开源防护措施，要么通过训练代理模型模仿目标黑盒防护措施，以将防护措施纳入MTO过程中。我们通过在多个常用的数据集上进行广泛的评估展示了DualBreach在双重突破场景中的有效性。实验结果表明，DualBreach在更少的查询次数下优于最先进的方法，并在所有设置中实现显著更高的成功率。具体而言，DualBreach在使用Llama-Guard-3保护的GPT-4上实现了平均93.67%的双重突破成功率，而其他方法的最佳成功率为88.33%。此外，DualBreach每次成功的双重突破仅使用平均1.77次查询，优于其他最先进的方法。为了防御目的，我们提出了一种基于XGBoost的集成防御机制，称为EGuard，它整合了多个防护措施的优点，并在性能上优于Llama-Guard-3。

发布时间: 4/29/2025

查看原文

基于空间注意消除的扩散模型后门防御

作者: Abha Jha, Ashwath Vaithinathan Aravindan, Matthew Salaway, Atharva Sandeep Bhide, Duygu Nur Yaldiz

arXiv:2504.18563v1 安全类型: 交叉摘要: 文本到图像的扩散模型越来越容易受到后门攻击的影响，在这种攻击中，恶意修改训练数据会使模型在特定触发器存在时生成未预期的输出。尽管分类模型已经开发出了大量防御机制，但由于生成模型具有高维输出空间，使得检测和减轻微妙扰动变得更加复杂，这些模型仍然主要未受到保护。尤其是针对扩散模型的防御策略仍处于探索阶段。在本工作中，我们提出了空间注意力去学习(Spatial Attention Unlearning, SAU)，这是一种用于缓解扩散模型后门攻击的新型技术。SAU 利用潜在空间操控和空间注意力机制来隔离并移除后门触发器的潜在表示，确保精确和高效的恶意效果移除。我们在各种类型的后门攻击中评估了 SAU，包括像素级和样式级触发器，并展示了其在实现 100% 触发器移除准确率方面的有效性。此外，SAU 达到了 0.7023 的 CLIP 分数，优于现有方法，同时保持了生成高质量、语义对齐图像的能力。我们的结果显示，SAU 是一种稳健、可扩展且实用的解决方案，可用于保护文本到图像的扩散模型免受后门攻击。

发布时间: 4/29/2025

查看原文

基于 Gemma 3 的模块化架构：带有预训练“内在世界”层的深度学习方法，用于野火预测

作者: Ayoub Jadouli, Chaker El Amrani

arXiv:2504.18562v1 交叉类型：cross 摘要：深度学习模型，尤其是大型变换器模型，在其中间层承载着大量的“记忆”——一种内置的世界，它包含了丰富的关系性和上下文知识。本文通过引入基于最新多模态模型Gemma 3的模块化架构，利用这一内置的世界来预测野火发生。我们开发了一个自定义的前馈模块，将表格化的野火特征转换为Gemma 3中间层变换器块所需的隐藏维度。我们冻结了这些Gemma 3子层——从而保持了其预训练的表示能力——而只训练较小的输入和输出网络。这种方法减少了可训练参数的数量，并降低了对有限的野火数据过度拟合的风险，同时保留了Gemma 3广泛知识的好处。在摩洛哥野火数据集上的评估表明，与标准的前馈网络和卷积基线相比，该方法具有更好的预测准确性和鲁棒性。消融研究证实，冻结的变换器层始终有助于更好的表示，强调了重新利用大型模型中间层作为一个学习的内置世界的可能性。我们的研究结果表明，在野火风险管理等关键环境应用中，战略性的预训练变换器模块化重用可以实现更高效、可解释的解决方案。

发布时间: 4/29/2025

查看原文

注意语言差距：针对高低资源语言的 LLMS 中偏差的自动化和增强评估

作者: Alessio Buscemi, C\'edric Lothritz, Sergio Morales, Marcos Gomez-Vazquez, Robert Claris\'o, Jordi Cabot, German Castignani

arXiv:2504.18560v1 宣布类型: cross 摘要：大规模语言模型（LLMs）展示了令人印象深刻的自然语言处理能力，但常常会在训练数据中固有的社会偏见上延续这些偏见。为了解决这一问题，我们提出了多语言增强偏见测试（MLA-BiTe）框架，该框架通过支持系统化的多语言偏见测试来改进先前的偏见评估方法。MLA-BiTe 利用自动翻译和改写技术，在多样的语言环境中进行全面评估。在本研究中，我们通过使用四种最先进的 LLM 在六种语言（包括两种低资源语言）中进行测试，重点关注七类敏感的歧视类别，来评估 MLA-BiTe 的有效性。

发布时间: 4/29/2025

查看原文

RDI：基于样本聚类特征的深度神经网络抗 adversarial 干扰性评估指标

作者: Jialei Song, Xingquan Zuo, Feiyang Wang, Hai Huang, Tianle Zhang

arXiv:2504.18556v1 Announce Type: 剪辑摘要：深度神经网络（DNNs）高度容易受到对抗样本的影响，这对其在关键安全任务中的可靠性提出了担忧。目前，评估对抗鲁棒性的方法主要分为攻击基和认证鲁棒性评估方法两大类。前者不仅依赖于特定的攻击算法，而且还十分耗费时间，而后者由于其分析性，通常难以对大型和复杂模型进行实现。少数研究基于模型的决策边界来评估模型的鲁棒性，但它们的评估准确性较低。为了解决上述问题，我们提出了一种基于样本聚类特征的新颖对抗鲁棒性评估指标，即鲁棒性差异指数（RDI）。RDI 受聚类评估的启发，通过对决策边界两侧的特征向量进行类内和类间距离分析来衡量模型的鲁棒性。RDI 是攻击无关的，并且具有高计算效率。实验表明，RDI 在与攻击成功率（ASR）的标准对抗鲁棒性指标之间的相关性更加强烈。RDI 的平均计算时间仅为基于 PGD 攻击的评估方法的 1/30。我们的开源代码可在以下地址获取：https://anonymous.4open.science/r/RDI-B1DA。

发布时间: 4/29/2025

查看原文

评估合成表格数据的关键挑战与指导原则：一项系统审查

作者: Nazia Nafis, Inaki Esnaola, Alvaro Martinez-Perez, Maria-Cruz Villa-Uriol, Venet Osmani

arXiv:2504.18544v1 宣告类型：交叉摘要：生成合成表数据可能会很具挑战性，然而对其质量的评估也同样具有挑战性，甚至更为困难。本文系统回顾强调了严格评估合成健康数据的重要性，以确保其可靠性和相关性，并正确使用。基于筛选出的1766篇文章和详细审查的101篇文章，我们确定了关键的挑战，包括评价方法缺乏一致意见、评价指标使用不当、领域专家输入不足、数据集特征报告不充分以及结果重现性较差。为此，我们提供了关于合成数据生成和评估的若干指南，以便社区能够释放和充分利用合成数据的变革潜力，并加速创新。

发布时间: 4/29/2025

查看原文

面向社会公益项目的AI范围自动化界定

作者: Jacob Emmerson, Rayid Ghani, Zheyuan Ryan Shi

arXiv:2504.20010v1 通知类型: 新摘要: 人工智能为社会谋福利（AI4SG）是一个新兴努力，旨在利用人工智能系统的强大能力来解决复杂的社会问题。这些问题从公共交通网络的本地问题到全球野生动物保护不等。然而，无论规模大小，许多AI4SG倡议的关键瓶颈在于界定问题的过程——这是一个复杂且资源密集的任务——由于缺乏既具备技术背景又精通特定领域的专业人士。鉴于大型语言模型（LLM）的出色应用，我们提出了一种问题界定代理（PSA），利用LLM生成基于科学文献和现实生活知识的全面项目提案。我们通过盲审和AI评估展示了我们的PSA框架生成的提案与专家撰写的提案具有可比性。最后，我们记录了实际问题界定面临的挑战，并指出了一些未来工作的领域。

发布时间: 4/29/2025

查看原文

面向AI驱动的警务：从警用身体佩戴摄像头 footage 中的跨学科知识发现

作者: Anita Srbinovska, Angela Srbinovska, Vivek Senthil, Adrian Martin, John McCluskey, Ernest Fokou\'e

arXiv:2504.20007v1 通知类型: 新摘要: 本文提出了一种新的跨学科框架，用于使用先进的人工智能（AI）和统计机器学习（ML）技术分析罗切斯特警察部门（RCP）的警用随身摄像头（BWC）录像。我们的目标是检测、分类和分析警察与平民之间互动的模式，以识别诸如尊重、不尊重、升级和降级等关键行为动态。我们通过将视频、音频和自然语言处理（NLP）技术相结合，进行多模态数据分析，以从BWC录像中提取有价值的见解。我们介绍了我们的方法、计算技术及研究成果，旨在为执法提供实用的方法，并推动从警察BWC数据中发现知识的前沿。

发布时间: 4/29/2025

查看原文

如何让群体生活得更好

作者: John Beverley, Regina Hurley

arXiv:2504.19968v1 通知类型: 新摘要：本文探讨了群体福祉的本体空间，提出了一种在本体工程背景下表示集体福利、群体功能和长期贡献的框架。传统的福祉理论主要关注个体状态，常常依赖于享乐主义、欲望满足或客观项目列表模型。这些方法在处理个体牺牲促进更广泛的社会进步的情况下难以做出解释，这是在建模群体繁荣时的一个关键挑战。为了应对这一挑战，本文改进并扩展了福利的反事实解释（CT），该解释通过将个体的实际福祉与其附近可能世界中的假设对应物进行对比来评估事件的好坏。虽然这种框架在个体层面是有用的，但它不足以应用于群体层次上的本体论中，在那里福祉取决于功能的持久性、机构角色和历史影响，而不是即时的个体结果。借鉴基本形式本体论（BFO），本文引入了一个模型，在这个模型中，群体繁荣通过群体功能来评估，其中成员承担角色并表现出类似生物系统或设计制品的持久性条件。这种方法使语义互操作性能够用于建模纵向的社会贡献，从而能够关于群体福利、社会机构和随时间的群体繁荣进行结构化的推理。

发布时间: 4/29/2025

查看原文