arXiv:2503.20844v1 攻击类型: 对抗
摘要:深度强化学习(DRL)已成为机器人控制的一个有前途的方法,但由于其对环境扰动的脆弱性,其在现实世界中的部署仍然具有挑战性。现有的源自监督学习的白盒对抗攻击方法无法有效针对DRL代理,因为它们忽略了时间动态性,并且随机扰动所有状态维度,这限制了它们对长期回报的影响。为了解决这些挑战,我们提出了自适应梯度-蒙蔽强化(AGMR)攻击,这是一种结合了DRL和基于梯度的软蒙蔽机制的白盒攻击方法,可以动态地识别关键状态维度并优化对抗策略。AGMR根据最有影响力的状态特征分配扰动,并通过引入动态调整机制在训练过程中平衡探索与利用。广泛的实验表明,AGMR在降低受害代理性能方面优于最先进的对抗攻击方法,并通过对抗防御机制增强受害代理的鲁棒性。
arXiv:2503.20831v1 交叉公告类型:
摘要:网络安全漏洞的迅速增加迫切需要自动化工具来分析和分类漏洞报告。本文介绍了一种新颖的漏洞报告分类器,该分类器利用BERT(双向编码器表示从变换器)模型对国家漏洞数据库(NVD)中的Common Vulnerabilities and Exposures (CVE) 报告进行多标签分类。该分类器从文本描述中预测漏洞的严重性(低、中、高、关键)和漏洞类型(例如,缓冲区溢出、XSS)。我们介绍了一种自定义训练管道,使用结合了严重性交叉熵损失和类型带标签的二元交叉熵损失的自定义损失函数,并集成到Hugging Face Trainer的子类中。对最近的NVD数据进行的实验显示出了有希望的结果,各轮次的评估损失逐渐降低。该系统通过REST API和Streamlit UI部署,实现了实时漏洞分析。本工作为网络安全从业人员提供了一种可扩展的开源解决方案,以自动化漏洞triage处理。
arXiv:2503.20824v1 宣称类型: cross
摘要: 视频语义分割(VSS)在理解场景的时空演化中发挥着重要作用。传统方法通常逐帧或在短时间内对视频进行分割,导致有限的时空上下文、冗余计算和高内存需求。为了解决这些问题,我们引入了Temporal Video State Space Sharing (TV3S) 架构,利用Mamba状态空间模型实现时空特征共享。我们的模型具备选择性门控机制,可以高效地在视频帧之间传播相关信息,从而省去了内存密集型特征池的需求。通过独立处理空间补丁并结合移位操作,TV3S 在训练和推理阶段支持高度并行计算,这减少了序列状态空间处理中的延迟,提高了长视频序列的可扩展性。此外,在推理过程中,TV3S 利用前几帧的信息,实现长时间范围的时空一致性并具备对长序列的优越适应性。在VSPW和Cityscapes数据集上的评估显示,我们的方法超越了当前最先进的方法,为VSS 设立了新的标准,并在长视频序列中取得了稳定的结果。通过在准确性和效率之间取得良好平衡,TV3S 显著推进了时空建模,为高效视频分析铺平了道路。代码可公开访问 https://github.com/Ashesham/TV3S.git。
arXiv:2503.20822v1 类型: cross
摘要: 我们研究如何通过利用来自计算机图形流水线的合成视频来增强视频生成模型的物理真实性。这些渲染的视频遵循现实世界的物理规律,如保持三维一致性,并可作为有价值的资源, potentially 改进视频生成模型。为了利用这一潜力,我们提出了一种解决方案,通过策展和整合合成数据,并引入一种将其实体物理真实感转移到模型的方法,从而显著减少不必要的伪像。通过在三个强调物理一致性的代表性任务上进行实验,我们展示了其在增强物理真实感方面的有效性。尽管我们的模型仍然缺乏对物理的深刻理解,但我们的工作提供了合成视频在视频合成中增强物理真实感的首个实证演示。网站: https://kevinz8866.github.io/simulation/
arXiv:2503.20807v1 交叉公告类型
摘要:在一些任务特定的数据集上微调大型语言模型(LLMs)是LLMs的主要用途之一。然而,经验上观察到,这种增强能力的方法不可避免地会牺牲安全性,这种现象在LLM微调中也被称为安全-能力权衡。本文提出了一种理论框架,用于理解在两种主要的安全意识LLM微调策略中,安全与能力之间的相互作用,为数据相似性、上下文重叠和对齐损失景观的影响提供了新的见解。我们的理论结果界定了LLM微调中安全-能力权衡的基本限制,这些结果也在数值实验中得到了验证。
arXiv:2503.20804v1 安全类型:交叉学科
摘要:评估自主驾驶策略的安全性非常重要,而强化学习(RL)已成为发现驾驶策略中关键漏洞的强大方法。然而,现有的基于RL的方法往往难以识别既有效(即自主车辆确实对事故负责)又多样(涵盖多种故障类型)的漏洞。为了解决这些挑战,我们提出了一种名为AED的框架,该框架利用大规模语言模型(LLMs)自动发现自主驾驶策略中的有效和多样化的漏洞。首先,我们利用LLM自动设计RL训练的奖励函数。然后,让LLM考虑多种事故类型,并并行训练不同事故类型的对抗策略。最后,我们使用基于偏好的学习来过滤无效的事故,并提高每个漏洞的有效性。在多个模拟交通场景和测试策略的实验中,结果显示,AED发现的漏洞范围更广,并且攻防成功率更高,从而减少了手动奖励工程的需求,并提高了漏洞发现的多样性和有效性。
arXiv:2503.20802v1 宣告类型: cross
摘要: 文本水印为识别大型语言模型生成的合成文本提供了一种有效解决方案。然而,现有的技术往往专注于满足特定的标准,而忽略了其他关键方面,缺乏统一的评估。为了填补这一空白,我们提出了全面评价框架(CEFW),这是一种统一框架,综合评估了文本水印方法在五个关键维度上的表现:检测的简便性、文本质量的保真度、嵌入成本的最小化、对抗攻击的鲁棒性以及不可感知性以防止仿冒或伪造。通过根据所有这些关键标准评估水印,CEFW 提供了对他们实用性和效果的全面评估。此外,我们引入了一种简单而有效的水印方法,称为平衡水印(BW),它通过平衡水印信息的添加方式来保证鲁棒性和不可感知性。广泛的实验表明,BW 在所有评估维度上都优于现有方法的整体性能。我们向社区发布了我们的代码,供未来的研究使用。https://github.com/DrankXs/BalancedWatermark.
arXiv:2503.20800v1 Announce Type: cross
摘要:鉴于标度规律,许多人工智能机构正加大努力,以高质量的人类数据为基础构建先进的AI系统。然而,为了保持竞争力,一些机构在不经意间或故意使用未经授权的数据(如涉及隐私或知识产权的内容)进行AI训练,这侵犯了数据所有者的权利。更糟糕的是,这些先进的AI服务通常基于不透明的云平台构建,这限制了在AI训练和推理过程中对内部信息的访问,只允许生成的输出用于证据分析。因此,尽管各国都引入了法律框架以保护数据权利,但在现代不透明的AI应用程序中发现数据滥用的证据仍然是一项重大挑战。在这篇论文中,受到同位素在化学反应中追踪元素能力的启发,我们介绍了信息同位素的概念,并阐述了它们在不透明AI系统中追踪训练数据的性质。此外,我们提出了一种信息同位素追踪方法,旨在通过检测AI生成中目标信息同位素的存在来识别并提供未经授权数据使用的证据。我们在十个AI模型(包括GPT-4o、Claude-3.5和DeepSeek)和四个基准数据集(医疗数据、版权书籍和新闻)的关键领域进行了实验。结果显示,通过检查相当于一篇研究论文长度的数据条目,我们的方法可以以99%的准确性和显著的证据(p值<0.001)区分训练数据集和非训练数据集。这些发现显示了我们的工作作为一个包容性工具的潜力,可以帮助包括缺乏AI专业知识的个体在快速发展的AI研究与应用时代保护其数据权利。
arXiv:2503.20798v1 类型: cross
摘要: 入侵检测系统(IDS)对于识别恶意流量至关重要,但传统的基于签名的方法在应对零日攻击和高误报率方面存在困难。基于人工智能的包捕获分析提供了一种有前景的替代方案。然而,现有的方法严重依赖于基于流或统计特征,限制了它们检测细微攻击模式的能力。本研究提出了一种改进的卷积多头注意机制集成(CMAE)模型——Xavier-CMAE,该模型提高了检测准确性并减少了计算开销。通过使用十六进制到整数标记化器替换Word2Vec嵌入,并采用Xavier初始化,Xavier-CMAE消除了预训练过程,加快了训练速度,并实现了99.971%的准确率和0.018%的误报率,优于基于Word2Vec的方法。此外,我们引入了LLM-CMAE,该模型将预训练的大语言模型(LLM)标记化器集成到CMAE中。尽管大语言模型增强了特征提取,但其计算成本阻碍了实时检测。LLM-CMAE实现了高效和性能的平衡,达到了99.969%的准确率和0.019%的误报率。本工作通过(1)引入基于负载的检测框架,(2)通过Xavier-CMAE提高效率,以及(3)通过集成大语言模型标记化器增强实时检测,推进了基于人工智能的IDS。
arXiv:2503.20796v1 举报类型:跨平台
摘要:复杂的网络钓鱼攻击已成为主要的网络安全威胁,变得越来越普遍且难以预防。虽然机器学习技术在检测网络钓鱼攻击方面显示出了潜力,但它们主要作为“黑盒”运行,不揭示其决策机制。这种缺乏透明性侵蚀了用户的信任,减弱了他们有效的威胁响应。我们提出了一种名为EXPLICATE的框架,通过三组件架构增强网络钓鱼检测:基于领域特异性特征的机器学习分类器,结合LIME和SHAP的双重解释层以提供具有互补性的特征级洞察,以及使用DeepSeek v3增强的LLM,将技术解释转化为易于理解的自然语言。我们的实验表明,EXPLICATE在所有指标上的准确率为98.4%,与现有的深度学习技术相当,但更具可解释性。框架生成了高质量的解释,准确率为94.2%,LLM输出与模型预测的一致性为96.8%。我们创建了EXPLICATE作为一个完全可用的GUI应用程序和一个轻量级的Chrome扩展,展示了其在多种部署情况下的适用性。研究表明,高检测性能可以与安全应用中的有意义的可解释性共存。更重要的是,它解决了自动化AI与网络钓鱼检测系统中用户信任之间的关键分歧。