arXiv 论文列表

作者: Yangxu Yin, Honglong Chen, Yudong Gao, Peng Sun, Zhishuai Li, Weifeng Liu

arXiv:2504.21052v1 交叉公告类型摘要：多目标后门攻击对深度神经网络构成了重大的安全威胁，因为它们可以通过单个后门注入预设多种目标类别。这使得攻击者能够在推理过程中，通过触发器将中毒样本错误分类到任何期望的目标类别，其攻击性能明显优于传统的后门攻击。然而，现有的多目标后门攻击在黑盒设置中无法保证触发器的特异性和隐蔽性，导致了两个主要问题。首先，当只能操控训练数据时，它们无法同时针对所有类别进行攻击，限制了其在现实攻击场景中的效果。其次，触发器通常缺乏视觉不可感知性，使得中毒样本容易被检测。为了解决这些问题，我们提出了一种基于空间的全目标隐形后门攻击，称为SFIBA。它通过将不同类别的触发器限制在特定的局部空间区域和形态学特征上，以确保特异性，同时使用基于频域的触发器注入方法来保证隐蔽性。具体来说，对于每个触发器的注入，我们首先应用快速傅里叶变换以在局部空间区域中获得干净样本的振幅频谱，然后利用离散小波变换从振幅频谱中提取特征并使用奇异值分解来整合触发器。随后，我们选择性地过滤像素空间中触发器的一部分以实现触发器的形态学约束，并根据视觉效果调整注入系数。我们在多个数据集和模型上进行了实验。结果显示，SFIBA 可以实现优异的攻击性能和隐蔽性，同时保持模型在良性样本上的性能，并且可以绕过现有的后门防御。

发布时间: 5/1/2025

查看原文

使用双方向长短期记忆网络检测钓鱼网址

作者: Sneha Baskota

arXiv:2504.21049v1 宣告类型: cross 摘要: 套取个人信息的攻击威胁在线用户，通常会导致数据泄露、财务损失和身份盗窃。传统的钓鱼检测系统面临着高误报率的问题，并且通常受到它们能识别的攻击类型的限制。本文提出了一种基于深度学习的方法，使用双向长短期记忆（Bi-LSTM）网络将URL分类为四种类别：良性、钓鱼、篡改和恶意软件。该模型利用了序列URL数据并捕捉上下文信息，提高了钓鱼检测的准确性。在包含超过650,000个URL的数据集上进行的实验结果表明，该模型的有效性，准确率为97%，并显著优于传统技术。

发布时间: 5/1/2025

查看原文

多智能体强化学习在资源分配优化中的应用：一个综述

作者: Mohamad A. Hady, Siyi Hu, Mahardhika Pratama, Jimmy Cao, Ryszard Kowalczyk

arXiv:2504.21048v1 交叉公告类型：cross 摘要：多智能体强化学习（MARL）已成为众多实际应用的强大框架，用于建模分布式决策并从与复杂环境的交互中学习。资源分配优化（RAO）从MARL的能力中受益匪浅，能够应对动态和分散化的背景。基于MARL的方法在各行业中越来越被应用于RAO挑战，发挥着关键作用以推动工业4.0的发展。本文综述了最近的MARL算法在RAO中的应用，涵盖了核心概念、分类和结构化的分类体系。通过概述当前的研究景观、识别主要挑战和未来方向，本文旨在支持研究人员和 Practitioner 利用MARL的潜力来推动资源分配解决方案的发展。

发布时间: 5/1/2025

查看原文

模型连接组：一种数据高效语言模型的代际方法

作者: Klemen Kotar, Greta Tuckute

arXiv:2504.21047v1 类型: cross 摘要：生物神经网络既受到代际进化的塑造，又受到个体在其一生中的学习影响，而标准的人工神经网络则经历了一次大型的训练过程，没有继承性的约束。在本初步工作中，我们提出了一个框架，将这一重要的代际维度纳入其中——一个“外环”进化过程塑造了一个“内环”学习过程——从而使人工网络更好地模仿生物体中进化和个体学习的影响。聚焦于语言，我们在该模型之前引入了一个“模型连接组”，然后将其暴露在一个规模上类似发育过程的1亿 tokens 的语料库中。与两个高度匹配的控制模型相比，我们展示了连接组模型在自然语言处理任务以及人类行为和脑数据的对齐上表现更好或相当。这些发现表明，一个模型连接组在数据量有限的环境下作为学习的一种有效的先验——缩小了一代人工模型与生物进化神经网络之间的差距。

发布时间: 5/1/2025

查看原文

利用大语言模型强化基于机器学习的跨站脚本检测

作者: Dennis Miczek, Divyesh Gabbireddy, Suman Saha

arXiv:2504.21045v1 安全公告类型：交叉摘要：根据开放网络应用安全项目（OWASP）的报告，跨站脚本（XSS）是一种关键的安全漏洞。尽管经过了几十年的研究，XSS 仍然位居前十大安全漏洞之列。研究人员提出了各种技术来保护系统免受 XSS 攻击，其中机器学习（ML）是最常用的方法之一。一个 ML 模型被训练在一个数据集上，以识别潜在的 XSS 威胁，其有效性高度依赖于训练数据的规模和多样性。XSS 的一种变体是被混淆的 XSS，攻击者会使用混淆技术改变代码结构，使得安全系统难以检测其恶意意图。我们的研究中的随机森林模型在传统（非混淆）XSS 数据上实现了 99.8% 的准确率。然而，在测试混淆 XSS 样本时，准确率下降到 81.9%，这突显了使用混淆数据训练 ML 模型以提高检测 XSS 攻击效果的重要性。一个主要的挑战是如何生成高度复杂的混淆代码，尽管已有多个公开的工具可用，这些工具仅能生产一定程度复杂的混淆代码。在我们提出的系统中，我们对大型语言模型（LLM）进行微调，以自动生成复杂的混淆 XSS 载荷。通过将原始 XSS 样本转换为多种多样且复杂的混淆变体，我们为 ML 模型评估生成了具有挑战性的训练数据。我们的方法在混淆数据集上实现了 99.5% 的准确率。我们还发现，由 LLM 生成的混淆样本比其他工具生成的样本复杂 28.1%，这显著提高了模型处理高级 XSS 攻击的能力，使其更适合应用于实际场景中的安全防护。

发布时间: 5/1/2025

查看原文

AGATE：隐蔽的黑盒水印技术用于多模态模型版权保护

作者: Jianbo Gao, Keke Gai, Jing Yu, Liehuang Zhu, Qi Wu

arXiv:2504.21044v1 宣告类型: 交叉摘要: 近期大规模人工智能（AI）模型的发展使得多模态服务成为AI系统的基础，使它们成为模型盗窃的主要目标。现有的方法通过选择异常分布（Out-of-Distribution, OoD）数据作为后门水印，并重新训练原始模型以进行版权保护。然而，现有的方法容易被对手进行恶意检测和伪造，从而导致水印逃避。在本文中，我们提出了模型无感知的黑盒后门水印框架（AGATE）以解决多模态模型版权保护中的隐身性和鲁棒性挑战。具体而言，我们提出了一种对抗触发生成方法，从普通数据集中生成隐身的对抗触发，提供视觉保真度的同时引发语义转变。为了解决模型输出中的异常检测问题，我们提出了一种后变换模块，通过缩小对抗触发图像嵌入和文本嵌入之间的距离来纠正模型输出。随后，我们提出了两阶段水印验证方法，通过比较带有和不带变换模块的结果来判断当前模型是否侵权。最终，我们在五个数据集的多模态图像-文本检索和图像分类下游任务中一致地优于最先进的方法。此外，我们在两种对抗攻击场景下验证了AGATE的鲁棒性。

发布时间: 5/1/2025

查看原文

CodeBC：为区块链智能合约代码生成提供更安全的大语言模型

作者: Lingxiang wang, Hainan Zhang, Qinnan Zhang, Ziwei Wang, Hongwei Zheng, Jin Dong, Zhiming Zheng

arXiv:2504.21043v1 类别: cross 摘要: 大型语言模型（LLMs）在从自然语言指令生成代码方面表现出色，但由于缺乏对安全漏洞的理解，它们往往无法避免生成代码中的安全风险，特别是在区块链智能合约开发等高安全编程任务中。研究人员通过训练模型来区分漏洞代码和修复代码片段，试图提高这些模型的安全感知能力。然而，这种方法严重依赖手动标注的安全漏洞数据，而这些数据仅对像 Python 和 C++ 这样的流行语言可用。对于像 Solidity 这样的低资源语言（在智能合约中使用），大规模标注数据集稀缺且难以获得。为了解决这一挑战，我们提出了 CodeBC，这是一种专门用于生成区块链安全智能合约的代码生成模型。CodeBC 采用了基于 CodeLlama 的三阶段微调方法，与之前的方法不同，它不依赖于成对的安全漏洞位置标注，而是利用安全标签和安全标签来向模型教授漏洞代码和安全代码之间的差异。在推理阶段，模型利用安全标签生成安全且健壮的代码。实验结果表明，与基线模型相比，CodeBC 在 BLEU、CodeBLEU 和编译通过率方面表现更优，并且显著降低了漏洞率。这些发现验证了我们三阶段微调策略的有效性和成本效益，使 CodeBC 成为生成安全智能合约代码的一个有前景的解决方案。

发布时间: 5/1/2025

查看原文

《是什么在拉动线绳？通过概念偏移评估AI训练和推理中的完整性和归属问题》

作者: Jiamin Chang, Haoyang Li, Hammond Pearce, Ruoxi Sun, Bo Li, Minhui Xue

arXiv:2504.21042v1 安全公告类型: 交叉摘要：人工智能（AI）的广泛应用放大了对其可靠性的担忧，包括完整性和透明性、隐私保护、稳健性和偏差。为了评估和归因这些威胁，我们提出了一种名为ConceptLens的通用框架，该框架利用预训练的多模态模型通过分析探查样本中的概念变化来识别完整性威胁的根本原因。ConceptLens在常规数据中毒攻击中表现出强大的检测性能，并揭示了偏差注入的脆弱性，例如通过恶意概念变化生成隐蔽广告。它能够识别未修改但风险高的样本中的隐私风险，在训练前过滤这些样本，并提供由于训练数据不完整或不平衡而导致的模型弱点的见解。此外，在模型层面，它能够归因于目标模型过于依赖的概念，识别误导性概念，并解释破坏关键概念如何负面影响模型。此外，它揭示了生成内容中的社会学偏差，揭示了跨社会学背景的差异。值得注意的是，ConceptLens揭示了安全训练和推理数据可能如何无意中且轻松地被利用，这可能会削弱安全对齐。我们的研究提供了行动性的见解，以增强对AI系统的信任，从而加速其采用并推动更大的创新。

发布时间: 5/1/2025

查看原文

Llama-3.1-基础AI安全大语言模型-8B 技术报告

作者: Paul Kassianik, Baturay Saglam, Alexander Chen, Blaine Nelson, Anu Vellore, Massimo Aufiero, Fraser Burch, Dhruv Kedia, Avi Zohary, Sajana Weerawardhena, Aman Priyanshu, Adam Swanda, Amy Chang, Hyrum Anderson, Kojin Oshiba, Omar Santos, Yaron Singer, Amin Karbasi

arXiv:2504.21039v1 类型: cross 摘要：随着基于变压器的大规模语言模型（LLMs）越来越多地渗透到社会中，它们已经革新了软件工程、创意写作和数字艺术等领域。然而，它们在网络安全中的应用仍然受到限制，主要是因为缺乏专门的训练数据和表示网络安全领域特定知识的复杂性。为了解决这些缺口，我们提出了Foundation-Sec-8B，这是一种基于Llama 3.1架构并通过对精心筛选的网络安全语料库进行持续预训练而增强的网络安全专用的大规模语言模型。我们在多个现有的和新的网络安全基准上评估了Foundation-Sec-8B，显示它在某些网络安全特定任务上与Llama 3.1-70B和GPT-4o-mini相媲美。通过向公众发布我们的模型，我们旨在加速人工智能驱动工具在公共和私营网络安全领域的应用和进步。

发布时间: 5/1/2025

查看原文

基于填充的脱管攻击：一种绕过LLM安全边界的新方法

作者: Yakai Li, Jiekang Hu, Weiduan Sang, Luping Ma, Jing Xie, Weijuan Zhang, Aimin Yu, Shijie Zhao, Qingjia Huang, Qihang Zhou

arXiv:2504.21038v1 安全公告类型: 交叉摘要：大型语言模型（LLMs）设计用于生成有益和安全的内容。然而，通常被称为“越狱”的对抗性攻击可以使它们的安全协议失效，促使LLMs生成有害内容或泄露敏感数据。因此，调查越狱方法对于暴露LLMs中的系统性脆弱性至关重要，最终将指导开发人员持续实施安全增强措施。在本文中，我们提出了一种新颖的越狱攻击方法，利用了LLMs的预输入功能，这是一种旨在增强模型输出约束的功能。与传统的越狱方法不同，所提出的攻击通过直接操纵后续令牌的概率分布，绕过了LLMs的安全机制，从而控制模型的输出。我们提出了两种攻击变体：静态预输入（SP），使用通用预输入文本；以及优化预输入（OP），通过迭代优化预输入文本以最大化攻击成功率。在AdvBench基准上对六种最新的LLM进行实验验证了我们方法的有效性，并且展示了当与现有的越狱方法结合使用时，其提高攻击成功率的能力。OP方法在某些模型上的攻击成功率高达99.82%，远超基线方法。本文介绍了一种新的LLMs越狱攻击方法，强调需要强大的内容验证机制来缓解预输入功能的对抗性利用。本文中使用的所有代码和数据都是公开的。

发布时间: 5/1/2025

查看原文