arXiv:2504.11703v1 安全公告类型:跨平台
摘要: 大型语言模型 (LLM) 代理是一种新兴的 AI 系统,其中大型语言模型 (LLMs) 作为核心组件,利用多样化的工具来完成用户分配的任务。尽管它们具有巨大的潜力,但 LLM 代理也带来了重大的安全风险。在与外部世界互动时,它们可能会遇到攻击者的恶意命令,导致执行危险的操作。解决这一问题的一个有希望的方法是实施最小权限原则:允许仅完成任务所需的基本操作,同时阻止不必要的操作。然而,实现这一点颇具挑战性,因为它需要覆盖多样化的代理场景,同时保持安全性和实用性。
我们引入了 Progent,这是第一个针对 LLM 代理的权限控制机制。其核心是一种针对特定领域语言,灵活表达代理执行过程中应用的权限控制政策。这些政策对工具调用提供了细粒度的约束,决定何时允许工具调用,并指定如果不允许时的备选方案。这使代理开发者和用户能够为他们的特定用例设计合适的政策,并以确定的方式强制执行这些政策以确保安全。由于其模块化设计,集成 Progent 不会改变代理的内部结构,只需对代理的实现进行少量更改,从而增强了其实用性和广泛应用的潜力。为了自动化政策编写,我们利用 LLM 生成基于用户查询的政策,并动态更新这些政策以提高安全性和实用性。我们的全面评估显示,Progent 在三个不同的场景或基准(AgentDojo、ASB 和 AgentPoison)中实现了强大的安全性和高实用性。此外,我们进行了一项深入的分析,展示了其核心组件的有效性,并展示了其自动化政策生成在应对适应性攻击时的健壮性。
arXiv:2504.11686v1 命中类型: cross
摘要:生成型AI的迅速发展促进了内容创作并使图像操作更容易且更难以检测。尽管多模态大型语言模型(LLMs)蕴含了丰富的世界知识,但它们并不是为对抗由AI生成的内容(AIGC)而设计的,难以理解局部伪造细节。在本工作中,我们探讨了多模态LLMs在伪造检测中的应用。我们提出了一种框架,能够评估图像的真实性、定位篡改区域、提供证据并基于语义篡改线索追踪生成方法。我们的方法证明了通过细致的指令工程和少量样本学习技术,多模态LLMs在伪造分析中的潜力可以得到有效释放。我们进行了定性和定量实验,并展示了GPT4V在Autosplice中的准确率为92.1%、在LaMa中的准确率为86.3%,这在目前最先进的AIGC检测方法中具有竞争力。我们进一步讨论了多模态LLMs在这些任务中的局限性,并提出了潜在的改进方案。
arXiv:2504.11658v1 宣告类型: cross
摘要: 大型语言模型(LLMs)的快速发展为进一步改进序列推荐系统提供了越来越多的机会。然而,对于一些从业者来说,将LLMs集成到现有的基础推荐系统中可能会引起关于模型可解释性、透明性和相关安全性的问题。为部分缓解这些问题带来的挑战,我们提出了指导性嵌入细化的方法,该方法通过一种受指导且可解释的方式使用LLMs来增强与基础推荐系统关联的嵌入。我们并未直接将LLMs作为序列推荐系统的主干,而是将其用作辅助工具,模拟推荐销售逻辑并生成捕获解释性属性上领域相关语义信息的指导嵌入。得益于指导嵌入的强大泛化能力,我们通过使用指导嵌入和基础嵌入的降维版本构建了细化嵌入。然后,我们将细化嵌入集成到推荐模块中进行训练和推断。一系列数值实验表明,指导嵌入能够适应各种现有的基础嵌入模型,并且在不同推荐任务上泛化效果良好。数值结果显示,细化嵌入不仅提高了推荐性能,在平均倒数排名(MRR)、召回率和归一化折扣累积增益(NDCG)上分别取得了约10%到50%的提升,而且增强了可解释性,这得到了案例研究的证实。
arXiv:2504.11650v1 交叉类型: cross
摘要:功率流动(PF)计算是确保电源系统稳定和可靠运行的基础。由于在适当初始化的情况下能够快速收敛,牛顿-拉弗森(NR)方法通常用于PF分析。然而,随着电源电网接近其容量极限,病态条件和收敛问题带来了重大挑战。本文因此通过提出改进NR初始化的策略来应对这些挑战,从而减少迭代次数并避免发散。我们探索了三种方法:(i) 一种分析方法,通过电压的数学界限估计吸引盆地;(ii) 利用监督学习或物理启发的神经网络(PINNs)预测最优初始猜测的两种数据驱动模型;(iii) 一种强化学习(RL)方法,逐步调整电压以加速收敛。这些方法在基准系统上进行了测试。这项研究特别适用于现代电源系统,其中包括高渗透率的可再生能源和分布式生成,需要稳健和可扩展的PF解决方案。在实验中,提出的所有三种方法都展示了为牛顿-拉弗森方法提供初始猜测并减少步骤数以实现收敛的强大能力。这些发现为更高效的实时电网操作提供了途径,从而支持向更智能、更具韧性的电力网络过渡。
arXiv:2504.11645v1 共享类型: 交叉
摘要:受协作强化学习(RL)和带有时间相关数据的优化的启发,我们研究了一个涉及 $M$ 个代理的通用联邦随机逼近问题,其中每个代理由一个特定于该代理(可能是非线性的)本地算子来表征。目标是代理通过服务器间断地通信以找到这些代理本地算子平均值的根。我们设定的通用性源自于允许 (i) 每个代理的马尔可夫数据和 (ii) 代理本地算子的根之间的异质性。以往少量涉及这两个特征的联邦设置中的工作未能保证收敛到所需点或者展示出协作的优势;更重要的是,他们的算法依赖于投影步骤来保证迭代量的有界性。我们克服了这些局限性。我们开发了一个名为 \texttt{FedHSA} 的新算法,并证明了它能够保证收敛到正确的点,并且由于协作享受了 $M$ 倍的线性样本复杂度加速。据我们所知,这是该类问题的第一个有限时间结果,而无需依赖于投影步骤来证明这一点则需要一个相当复杂的论证,该论证考虑了马尔可夫采样的复杂时序相关性、为节省通信而采取的多次局部步骤以及由异质本地算子引起的漂移效应。我们的结果对一类广泛意义上的异质联邦RL问题(例如,策略评估和控制)具有重要意义,其中代理的马尔可夫决策过程在概率转移核和奖励函数上可以不同。
arXiv:2504.11626v1 类型: cross
摘要:通过各种指令调整或后训练步骤获得的指令模型通常被认为优于其基础版本,具有更好的实用性和性能。虽然模型获得了指令跟随的能力,但指令调整可能会导致模型忘记预训练的知识,或者使模型变得过于对话化和冗长。这反过来又会导致短样本上下文学习性能的下降。在这项工作中,我们通过部分适应方法削弱指令调整的强度,研究基础模型和指令模型之间的性能轨迹。我们发现,在多个模型家族和模型规模中,削弱指令调整的强度可以在涵盖多种经典自然语言任务的短样本上下文学习基准上带来实质性的改进。这以AlpacaEval衡量的指令跟随能力有所下降为代价。我们的研究揭示了在实践中值得考虑的上下文学习与指令跟随能力之间的潜在权衡。
arXiv:2504.11623v1 宣告类型: cross
摘要:时间序列异常检测,这是一种在工作流中检测错误和故障的重要主题,在现实世界的应用中具有极高的重要性。时间序列异常检测的目的在于减少潜在的损害或损失。然而,现有的异常检测模型通过模型输出与真实值(观察值)之间的误差来检测异常,这使它们变得不切实际。在此项工作中,我们提出了一种基于专门用于异常检测的时间序列预测模型和数据驱动的异常检测模型的**前瞻**方法。我们的前瞻方法使用数据驱动的异常检测模型从训练数据中建立异常阈值,并通过识别超过异常阈值的预测值来检测异常。此外,我们使用四个异常检测基准对模型进行了广泛评估,并分析了可预测和不可预测的异常。我们附上了源代码作为补充材料。
arXiv:2504.11609v1 类型: cross
摘要: 生成式人工智能(AI)的最新进展依赖于诸如深度学习和生成建模等机器学习技术,以在广泛的应用领域实现最先进的性能。这些方法之所以表现出色,部分原因在于它们能够学习复杂的、多模态数据的隐式“表示”。不幸的是,深度神经网络通常被认为是难以捉摸的黑箱,掩盖了这些表示,使得它们难以理解和分析。为了解决这些问题,一种方法是从头开始构建新的可解释的神经网络模型。这是因果表示学习(Causal Representation Learning, CRL)这一新兴领域的目标,它利用因果性作为构建灵活、可解释和可转移的生成AI的向量。CRL可以被视为三个内在统计问题的综合结果:(i)潜在变量模型,如因子分析;(ii)具有潜在变量的因果图形模型;以及(iii)非参数统计与深度学习。本文从统计学的角度回顾了CRL的最新进展,重点关注与经典模型的联系以及统计和因果识别结果。该评论还强调了CRL的关键应用领域、实现策略以及开放的统计问题。
arXiv:2504.11588v1 跨越领域类型:交叉
摘要:深度学习在医学成像领域取得了重大突破,但这些进步往往依赖于大量且注释良好的数据集。然而,获取这样的数据集面临着显著的挑战,因为这需要耗费时间和劳动密集型的医学专家注释工作。因此,人们越来越对在有限、不准确或缺少标签下运行的学习范式感兴趣,这些范式旨在在这种情况下进行学习。本文对这些领域的演变研究进行了分类和回顾,自2018年以来分析了约600项重要贡献。它涵盖了包括但不限于脑部、胸部和心脏成像等各种医学应用领域的图像分类、分割和检测任务。我们试图建立现有研究在相关领域之间的关系。我们为不同的学习范式提供了正式定义,并提供了各种学习机制和策略的综合总结和解释,帮助读者更好地了解当前的研究 landscape 和想法。我们还讨论了潜在的未来研究挑战。
arXiv:2504.11575v1 声明类型: 交叉
摘要: 在多环境(M-En)网络中检测分布式拒绝服务(DDoS)攻击面临着重大挑战,因为恶意流量模式多样且网络威胁在不断演进。现有的基于AI的检测系统难以适应新的攻击策略,并且缺乏高准确性和效率的实时攻击检测能力。本研究提出了一种在线连续学习方法,以在M-En网络中检测DDoS攻击,能够实现持续模型更新和对新兴威胁(包括零日攻击)的实时适应。首先,我们通过使用NS-3工具设置了一种现实的实时模拟来开发一个独特的M-En网络数据集,其中包括受害设备和僵尸设备。使用DDoSim应用程序,在满足M-En网络标准的物联网和传统IP环境中模拟具有不同包大小的DDoS攻击。我们的方法采用一个多级框架(MULTI-LF),其中包括两个机器学习模型:一个轻量级的模型1(M1),在其上使用选择性的关键数据集进行训练以实现快速和高效的初始检测,以及一个更为复杂的、高度准确的模型2(M2),在其上使用大量数据进行训练。当M1对预测结果缺乏信心时,决策将提升至M2以进行验证,并可能利用M2的见解对M1进行细微调整。如果两个模型都缺乏信心,系统会标记该事件以供人类干预,从而通过人类验证的类别进行模型更新,以增强对未知攻击模式的适应性。我们通过实际的模拟验证了MULTI-LF,结果显示其分类准确性为0.999,预测延迟仅为0.866秒,优于现有基线。此外,我们还从内存使用(3.632 MB)和CPU利用率(10.05%)方面评估了其在实时场景中的性能。