arXiv 论文列表

作者: Farnaz Soltaniani, Mohammad Ghafari, Mohammed Sayagh

arXiv:2504.21037v1 安全类型：交叉摘要：对安全漏洞报告（SBRs）的早期检测对于防止漏洞并确保系统可靠性至关重要。尽管已经为预测SBR开发了机器学习模型，但它们的预测性能仍有改进空间。在本研究中，我们对BERT和随机森林（RF），一个预测SBR的有力基线模型，进行了全面比较。结果表明，对于单个项目预测，RF在平均G-度量方面比BERT高出34%。仅添加各种项目的SBRs两种模型的平均性能都有所提高。然而，纳入安全性及非安全性漏洞报告显著降低了RF的平均性能至46%，而将BERT提升至其最佳平均性能66%，超过了RF。在跨项目SBR预测方面，BERT实现了令人瞩目的62%平均G-度量，远高于RF。

发布时间: 5/1/2025

查看原文

差分隐私微调大语言模型能保护 against 清晰度攻击吗？

作者: Hao Du, Shang Liu, Yang Cao

arXiv:2504.21036v1 宣称类型: cross 摘要：微调大型语言模型（LLMs）已成为将其适应特定任务的一种基本策略；然而，这一过程引入了重大的隐私挑战，因为敏感训练数据可能会无意中被记忆和暴露。尽管差分隐私（DP）提供了强大的理论保证以防止这种泄漏，但其在LLMs上的实际隐私有效性仍然不清楚，尤其是在不同的微调方法下。在这项研究中，我们系统地调查了DP在不同微调方法和隐私预算下的影响，通过数据提取和成员推理攻击来评估实际的隐私风险。我们的主要发现如下：（1）差分隐私降低了模型的实用性，但其影响在不同微调方法之间差异显著。（2）在没有DP的情况下，使用不同方法微调的模型的隐私风险差异很大。（3）当应用DP时，即使是相对较高的隐私预算也可以显著降低隐私风险。（4）在DP训练下的隐私-实用性折衷差异巨大，某些方法因严重的实用性下降而不适合DP。我们的结果为隐私意识强烈的LLM部署提供了实用指导，并为未来研究优化微调方法下的隐私-实用性折衷奠定了基础。

发布时间: 5/1/2025

查看原文

SAGA：治理人工智能代理系统的安全架构

作者: Georgios Syros, Anshuman Suri, Cristina Nita-Rotaru, Alina Oprea

arXiv:2504.21034v1 安全架构类型: 横向摘要：基于大型语言模型（LLM）的代理越来越多地自主地相互交互、协作和委托任务，而无需最少的人工干预。行业中的代理系统治理准则强调用户需要对代理保持全面控制，以减轻恶意代理可能造成的潜在伤害。已提出的几种代理系统设计方案解决了代理身份、授权和委托的问题，但这些设计仍然纯粹是理论性的，没有具体的实现和评估。最重要的是，它们没有提供用户控制的代理管理功能。为了解决这一缺口，我们提出了SAGA（Security Architecture for Governing Agentic systems），这是一种为代理系统提供用户对其代理生命周期监督的安全架构。在我们的设计中，用户将他们的代理注册到中央实体提供者（Provider）中，提供者维护代理的联系信息、用户定义的访问控制策略，并帮助代理在代理间通信中执行这些策略。我们引入了一种加密机制，用于生成访问控制令牌，提供了对代理与其他代理交互进行精细控制的能力，同时平衡了安全性和性能的考虑。我们在多种代理任务上评估了SAGA，使用了不同地理位置的代理以及多个本地设备和云上的LLM，证明了当在各种条件下使用时，SAGA几乎没有任何性能开销，同时不会影响底层任务的实用性。我们的架构使得自主代理的安全和可信部署成为可能，加速了这项技术在敏感环境下的负责任采用。

发布时间: 5/1/2025

查看原文

使用生成AI超越维度：增强现实中的实时3D模型生成

作者: Majid Behravan, Maryam Haghani, Denis Gracanin

arXiv:2504.21033v1 Announce Type: 横跨多个领域的摘要：传统的3D建模需要技术专长、专业软件以及耗时的过程，使其对许多用户来说不可用。我们的研究旨在通过将生成型AI与增强现实(AR)结合起来，形成一个协同系统，使用户能够轻松地实时生成、操作和与3D模型进行交互，直接在AR环境中进行。利用最新的AI模型如Shap-E，我们解决了在AR环境中将2D图像转换为3D表示的复杂挑战。通过先进的对象检测方法，如Mask R-CNN，解决了诸如对象隔离、处理复杂背景和实现无缝用户交互等关键挑战。来自35名参与者的评估结果显示，系统的总体软件可用性量表(SUS)评分为69.64，更频繁接触AR/VR技术的参与者对系统的评价更高，评分为80.71。这项研究特别适用于游戏、教育和基于AR的电子商务应用，为不具备特殊技能的用户提供直观的模型创建。

发布时间: 5/1/2025

查看原文

为电子政务解释选择合适的大型语言模型

作者: Lior Limonad, Fabiana Fournier, Hadar Mulian, George Manias, Spiros Borotis, Danai Kyrkou

arXiv:2504.21032v1 类别: cross 摘要: 伴随电子政务服务的解释的感知质量对于获得这些机构的信任至关重要，从而进一步增加这些服务的使用。近期生成式AI的进步，具体来说是大型语言模型（LLMs），允许自动化这样的内容表述，揭示解释的可解释性和保真度，并且更广泛地说，适应各种受众。然而，为电子政务服务机构选择合适的LLM类型已经变成一项非平凡的任务。在这项工作中，我们采用了一个先前开发的量表来辅助这一选择，提供了一种系统方法，用于比较各种LLMs生成的解释的感知质量。我们进一步通过税务申报过程展示了其适用性，使用它作为一个示例使用案例，该使用案例可以从采用LLM生成税务退款决定解释中受益。我们通过一项用户研究实现这一目标，其中128名调查受访者被要求对不同版本的LLM生成的税务退款决定解释进行评价，为选择最合适的LLM提供了一种方法论基础。认识到进行此类调查的实际挑战，我们还开始探索自动化这一过程，试图通过选择几种最先进的预测技术来复制人类反馈。

发布时间: 5/1/2025

查看原文

通过模型上下文协议促进多代理系统发展：架构、实施与应用

作者: Naveen Krishnan

arXiv:2504.21030v1 宣告类型: cross 摘要：多代理系统代表了人工智能的重大进步，通过协调的专业化代理来解决复杂问题。然而，这些系统在上下文管理、协调效率和可扩展操作方面面临着根本性的挑战。本文通过模型上下文协议（MCP）提出了一种全面的框架，通过标准化的上下文共享和协调机制来应对这些挑战。我们通过开发统一的理论基础、高级上下文管理技术和可扩展的协调模式，扩展了对AI代理架构的先前工作。通过在企业知识管理、协作研究和分布式问题解决领域的详细实现案例研究，我们展示了与传统方法相比的重大性能改进。我们的评估方法提供了一种系统评估框架，其中包括专门为多代理系统设计的基准任务和数据集。我们确定了当前的局限性、新兴的研究机会以及跨行业的潜在变革性应用。这项工作为演进更有能力、更协作和更上下文感知的人工智能系统做出了贡献，这些系统能够有效应对复杂的现实世界挑战。

发布时间: 5/1/2025

查看原文

PICO：通过 robust 提示隔离和网络安全监督实现的安全变压器

作者: Ben Goertzel, Paulos Yibelo

arXiv:2504.21029v1 Announce Type: cross 摘要：我们提出了一种鲁棒的变压器架构，旨在防止注入式提示攻击，确保生成安全可靠的响应。我们的PICO（提示隔离和网络安全监督）框架通过双通道独立处理和在受控门控融合机制下合并，结构上将受信任的系统指令与不受信任的用户输入分离。此外，我们在Mixture-of-Experts（MoE）框架内集成了一个专门的Security Expert Agent，并引入了一个网络安全知识图谱（CKG）以提供领域特定的推理。我们的训练设计进一步确保系统提示分支保持不变，而其余网络则学习安全地处理对抗性输入。PICO框架通过一般数学公式进行介绍，然后从变压器架构的具体方面进行详细说明，并通过包括政策木偶攻击在内的假设案例研究进行具体阐述。虽然最有效的实现方式可能是从头开始以PICO为基础训练变压器，但我们也提出了一个成本效益高的微调方法。

发布时间: 5/1/2025

查看原文

基于语义的对比微调：增强具有鉴别性嵌入的多模态恶意软件分类

作者: Ivan Montoya Sanchez, Shaswata Mitra, Aritran Piplai, Sudip Mittal

arXiv:2504.21028v1 交叉类型公告摘要：恶意软件变种的快速演变需要强大的分类方法来增强网络安全。尽管大型语言模型（LLMs）在生成帮助家族分类的恶意软件描述方面具有潜力，但它们的实用性受限于语义嵌入的重叠和与二进制行为特征的不一致。我们提出了一种对比微调（CFT）方法，通过基于余弦相似度的目标选择困难负样本来精炼LLM嵌入，使LLM能够区分密切相关的主要安全家族。该方法结合高度相似的负样本以增强辨别力，并结合中等级别的负样本以增加嵌入的多样性，优化精度和泛化能力。在CIC-AndMal-2020和BODMAS数据集上评估，我们精炼的嵌入被集成到一种模型无偏的元学习（MAML）框架中的多模态分类器中，并应用在少量样本设置中。实验表明有显著的改进：我们的方法在CIC-AndMal-2020数据集上仅使用20个样本即可达到63.15%的分类准确率，优于基线方法11到21个百分点，并超越了之前的负样本策略。消融研究证实了基于相似度的选择优于随机采样的优越性，获得了10到23个百分点的增益。此外，微调后的LLM生成了属性感知的描述，能够泛化到未见过的变体，弥合了文本和二进制特征之间的差距。这项工作通过使语义区分更加细致，推动了恶意软件分类的发展，并提供了一个可扩展的框架来适应网络安全挑战。

发布时间: 5/1/2025

查看原文

UrbanPlanBench：评估大规模语言模型的综合性城市规划基准

作者: Yu Zheng, Longyi Liu, Yuming Lin, Jie Feng, Guozhen Zhang, Depeng Jin, Yong Li

arXiv:2504.21027v1 交叉公告类型：arXiv 摘要：大型语言模型（LLMs）的出现为传统上由人类专业知识主导的各种领域的革命提供了希望。城市规划是一个从根本上塑造我们日常环境的专业领域，这个领域高度依赖于人类专家的多方面领域知识和经验。人类从业者在城市规划领域的帮助程度仍然尚未得到充分探索。本文中，我们介绍了一个全面的基准，UrbanPlanBench，用于评估LLMs在城市规划中的效果，涵盖了基本原理、专业知识、管理和法规，与人类规划师预期的资格要求密切相关。通过广泛的评估，我们揭示了LLMs在获取规划知识方面存在显著的不平衡，即使是最熟练的模型也无法达到专业标准。例如，我们观察到，在理解和掌握规划法规方面，有70%的LLMs未能达到其他方面的表现。除了基准之外，我们还呈现了迄今为止最大的监督微调（SFT）数据集UrbanPlanText，包含超过30,000个来自城市规划考试和教科书的指令对。我们的研究结果表明，微调模型在记忆测试和理解城市规划知识方面表现出增强的效果，但存在显著的空间待改进，特别是在需要特定领域术语和推理的任务中。通过在https://github.com/tsinghua-fib-lab/PlanBench 公开我们的基准、数据集及相关评估和微调工具集，我们旨在促进LLMs在实际城市规划中的集成，推动人类专业知识与机器智能的共生合作。

发布时间: 5/1/2025

查看原文

创建和评估代码混用尼泊尔语-英语和泰卢固语-英语数据集以用于不良语言检测：使用传统和深度学习模型

作者: Manish Pandey, Nageshwar Prasad Yadav, Mokshada Adduru, Sawan Rai

arXiv:2504.21026v1 Announce Type: cross 摘要：随着社交媒体上的多语言用户数量不断增加，检测代码混用文本中的虐待语言变得越来越具有挑战性。代码混用通信，其中用户无缝地在英语和其他母语之间切换，给传统虐待检测模型带来了困难，因为冒犯内容可能是情境依赖性的，或被语言融合所掩盖。虽然对于英语和印地语等高资源语言，在虐待语言检测方面已经进行了广泛的研究，但像泰卢固语和尼泊尔语等低资源语言仍然代表性不足，留下了有效的监督缺口。在这项研究中，我们介绍了一个包含2000条泰卢固语-英语及500条尼泊尔语-英语代码混用评论的新颖手动注释数据集，这些评论被分类为虐待语言和非虐待语言，并从各种社交媒体平台收集。在进行严格的预处理之后，该数据集被用于跨多个机器学习（ML）、深度学习（DL）和大型语言模型（LLMs）进行评估。我们尝试了包括逻辑回归、随机森林、支持向量机（SVM）、神经网络（NN）、LSTM、CNN以及LLMs在内的多种模型，并通过超参数调整优化了它们的性能，并使用10折交叉验证和统计显著性检验（t检验）对其进行评估。我们的研究结果提供了在代码混用环境中检测虐待语言的挑战的关键见解，并提供了计算方法的比较分析。这一研究通过在泰卢固语-英语和尼泊尔语-英语代码混用文本中建立虐待语言检测的基准，旨在推动低资源语言的自然语言处理（NLP）技术的发展。这个数据集和洞察可以为多语言社交媒体环境中的更稳健的监督策略开发提供帮助。

发布时间: 5/1/2025

查看原文