arXiv 论文列表

作者: AbdulAziz AbdulGhaffar, Ashraf Matrawy

arXiv:2505.04101v1 分类: cross 摘要: 人工智能（AI）预期将成为下一代AI原生6G网络的核心组成部分。随着AI的普及，研究人员已识别出AI在网络安全性中的诸多应用场景。然而，几乎没有研究分析大型语言模型（LLMs）在网络安全性中的适用性。为了填补这一空白，我们探讨了LLMs在网络安全性中的适用性，特别是在STRIDE威胁建模案例研究中。我们利用四种提示技术与五种LLM来对5G威胁进行STRIDE分类。从我们的评估结果中，我们指出了关键发现和详细见解，并解释了影响某些威胁建模中LLM行为的潜在因素。数字结果和见解支持需要调整和微调LLMs以适应网络安全性用例的必要性。

发布时间: 5/8/2025

查看原文

OpenAI API 在 Stack Overflow 上的讨论实证研究

作者: Xiang Chen, Jibin Wang, Chaoyang Gao, Xiaolin Ju, Zhanqi Cui

arXiv:2505.04084v1 类别：交叉学科摘要：大型语言模型（LLMs）的迅速发展，以 OpenAI 的 GPT 系列为代表，对自然语言处理、软件开发、教育、医疗保健、金融和科学研究等多个领域产生了重大影响。然而，OpenAI API 引入了与传统 API 相比的独特挑战，如提示工程的复杂性、基于标记的成本管理、非确定性输出以及作为黑箱操作。据我们所知，开发人员在使用 OpenAI API 时遇到的挑战在之前的经验研究中尚未被探究。为了填补这一空白，我们通过分析来自流行问答论坛 Stack Overflow 的 2,874 条与 OpenAI API 相关的讨论，进行了第一个全面的经验研究表明。首先，我们评估了这些帖子的受欢迎程度和难度。之后，通过手动将它们归类为九大 OpenAI API 相关类别，并通过主题建模分析识别出每个类别与之相关的具体挑战。基于我们的经验发现，最后我们提出了对开发人员、LLM 供应商和研究人员的具体建议。

发布时间: 5/8/2025

查看原文

Plexus: 三维并行GNN训练管理十亿边图

作者: Aditya K. Ranjan, Siddharth Singh, Cunyang Wei, Abhinav Bhatele

arXiv:2505.04083v1 类型: cross 摘要: 图神经网络已成为一类能够利用现实世界图的连接性和结构来学习节点之间复杂属性和关系的神经网络。许多现实世界中的图由于其巨大的规模而超出了GPU的内存容量，使用图神经网络对其进行处理需要采用像小批量采样这样的技术来进行扩展。然而，在某些情况下，这会导致准确性的下降，而采样和数据从CPU传输到GPU也可能减慢训练速度。另一方面，分布式全图训练由于图的不规则结构而导致高通信开销和负载不均衡。我们提出了一种名为Plexus的三维(3D)并行方法，该方法解决了这些问题，并可扩展到包含数十亿条边的图。此外，我们引入了平衡负载的排列方案，并开发了预测最佳3D配置的性能模型。我们在多个图数据集上评估了Plexus，并在Perlmutter机器上的2048个GPU（机器的33%）和Frontier机器上的2048个GCD上展示了扩展结果。Plexus在Perlmutter上实现了超过2.3倍至12.5倍的加速，而在Frontier上实现了5.2倍至54.2倍的加速，显著减少了求解时间。

发布时间: 5/8/2025

查看原文

LLM-e 猜想：随着硬件的进步，LLM 能力能否进一步提升？

作者: Teddy Foley, Spencer Guo, Henry Josephson, Anqi Qu, Jack Sanderson

arXiv:2505.04075v1 Announce Type: cross 摘要：本文通过分析在最先进的语言模型（LLM）中使用的算法的开发和作用，探讨大型语言模型的能力是否能够在无需额外计算资源的情况下继续进步。鉴于监管努力主要集中在限制高性能硬件的访问上，我们提出的问题是：在受限计算环境中，LLM 是否能够取得进步，以及在这种条件下算法创新如何表现？为了回答这些问题，我们引入了一种新的分类框架，将计算依赖性创新（在高计算水平下提供不成比例的好处，例如Transformers 架构和专家混合模型）与计算独立性创新区分开来（在所有计算规模上提高效率，例如旋转位置编码、FlashAttention 或层规范化）。我们使用一种称为计算等效收益（CEG）的度量标准来量化这些贡献，该标准估计在没有这些算法进步的情况下实现类似改进所需的额外计算资源。为了验证这一框架，我们使用缩小规模的GPT-2模型进行了小型训练实验。结果显示，即使在资源受限的环境中，计算独立性的进步仍能带来有意义的性能提升，与基准模型相比，计算等效收益可高达3.5倍。相比之下，计算依赖性的进步在小型规模下几乎没有收益甚至降低了性能，这突显了某些算法进步中计算资源可用性的重要性。

发布时间: 5/8/2025

查看原文

个性化工具调用 advancement 和基准测试 for LLMs

作者: Xu Huang, Yuefeng Huang, Weiwen Liu, Xingshan Zeng, Yasheng Wang, Ruiming Tang, Hong Xie, Defu Lian

arXiv:2505.04072v1 交叉类型公告摘要：工具调用是扩展大型语言模型（LLMs）能力的关键机制，并已引起了广泛关注。它使LLMs能够通过工具调用来解决复杂问题，同时获取最新的世界知识。然而，现有的工作主要集中在LLMs调用工具的基本能力上，用于问题解决，而没有考虑个性化约束下的工具调用。在本工作中，我们引入了个性化的工具调用概念，并定义了两个关键任务：工具偏好和基于用户资料的查询。工具偏好解决在选择功能相似的工具时用户的偏好问题，而基于用户资料的查询则考虑了用户查询缺乏某些工具参数的情况，要求模型从用户资料中推断这些参数。为了应对这些挑战，我们提出了PTool，一个专门为个性化工具调用设计的数据合成框架。此外，我们构建了PTBench，这是首个评估个性化工具调用的基准。随后，我们对各种开源模型进行了微调，展示了我们框架的有效性，并提供了宝贵的见解。我们的基准可以在https://github.com/hyfshadow/PTBench获取。

发布时间: 5/8/2025

查看原文

受Izhikevich启发的时空动态以增强突触神经网络中的隐私、效率和迁移性

作者: Ayana Moshruba, Hamed Poursiami, Maryam Parsa

arXiv:2505.04034v1 宣告类型: cross 摘要: 生物神经元表现出多种多样的时域尖峰模式，这被认为支持了高效的、稳健的和适应性的神经信息处理。虽然像伊赫钦克模型这样的模型可以重现这些广泛的放电动力学，但它们的复杂性给直接将这些动力学集成到可扩展的尖峰神经网络(SNN)训练管道中带来了挑战。在这项工作中，我们提出了两种基于概率的、输入级别的时域尖峰变换：Poisson-Burst和Delayed-Burst，直接将生物学启发的时变性引入标准的耗损综合和触发（LIF）神经元中。这使得训练更具可扩展性，并系统地评估尖峰时间动力学如何影响隐私、泛化能力和学习性能。Poisson-Burst根据输入强度调整爆发的发生，而Delayed-Burst通过爆发的发生时间编码输入强度。通过在多个基准测试上的广泛实验，我们展示了Poisson-Burst在保持竞争力的同时具有较低的资源开销，并表现出对成员推理攻击更强的隐私鲁棒性，而Delayed-Burst虽然会有一些准确性的损失，但提供了更强的隐私保护。这些发现突显了基于生物学的时间尖峰动力学在提高神经形态学习系统的隐私性、泛化能力和生物可行性方面的潜力。

发布时间: 5/8/2025

查看原文

Prism: 解锁GPU共享以实现高效多大语言模型服务

作者: Shan Yu, Jiarong Xing, Yifan Qiao, Mingyuan Ma, Yangmin Li, Yang Wang, Shuo Yang, Zhiqiang Xie, Shiyi Cao, Ke Bao, Ion Stoica, Harry Xu, Ying Sheng

arXiv:2505.04021v1 交叉类型: cross 摘要: 为大型语言模型 (LLMs) 提供服务费用高昂，尤其是对于托管多个模型的服务提供商而言，降低成本变得至关重要。为多个 LLM 提供服务的独特工作负载模式为这项任务带来了新的机会和挑战。模型的长尾流行度和长时间的空闲期为通过 GPU 共享提高利用率提供了机会。然而，现有的 GPU 共享系统缺乏在运行时调整其资源分配和共享策略的能力，使其在工作负载快速波动的情况下无法有效满足延迟服务级别目标 (SLO)。这篇文章介绍了 Prism，一个能够充分发挥 GPU 共享潜力的多 LLM 服务系统，以实现成本效益和 SLO 达成。Prism 的核心部分解决了现有系统的关键局限性——缺乏跨模型内存协调，这种跨模型内存协调在动态工作负载下灵活共享 GPU 内存是必不可少的。Prism 通过两种关键设计实现了这一点。首先，它支持按需内存分配，通过动态将物理内存页映射到虚拟内存页，以灵活地在占用相同 GPU 的模型之间重分布内存。其次，它通过一个两层调度策略来提高内存效率，该策略能根据模型的运行时需求动态调整共享策略。实际轨迹评估结果显示，Prism 在成本节省和 SLO 达成方面分别比最先进的系统高出超过 2 倍和 3.3 倍。

发布时间: 5/8/2025

查看原文

大型语言模型的输出结构化

作者: Darren Yow-Bang Wang, Zhengyuan Shen, Soumya Smruti Mishra, Zhichao Xu, Yifei Teng, Haibo Ding

arXiv:2505.04016v1 通知类型: cross 摘要：结构化输出对于关键应用（如代理和信息提取）中的大型语言模型（LLMs）至关重要。尽管它们具备这些能力，LLMs 通常会生成与预定义模式不符的输出，严重阻碍了可靠应用的开发。我们提出了SLOT（结构化LLM输出变换器），这是一种模型无关的方法，可以将非结构化的LLM输出转换为精确的结构化格式。现有解决方案大多依赖于受约束的解码技术，或者与特定模型紧密耦合，而SLOT则采用微调过的小型语言模型作为后处理层，可以在各种LLM和模式规定之间实现灵活性。我们介绍了一个系统性的数据收集和合成管道，以及一个正式的评估方法，该方法量化了模式准确性和内容保真度。我们的结果显示，带有受约束解码的微调Mistral-7B模型在模式准确性和内容相似度方面分别达到了99.5%和94.0%，远超Claude-3.5-Sonnet（分别高出25和20个百分点）。值得注意的是，即使是精简的模型如Llama-3.2-1B，在配备了SLOT的情况下，也能达到甚至超越许多更大且是专有的模型的结构化输出能力，在资源受限的环境中实现了可靠的结构化生成。

发布时间: 5/8/2025

查看原文

MergeGuard: 高效防范机器学习模型中的木马攻击

作者: Soheil Zibakhsh Shabgahi, Yaman Jandali, Farinaz Koushanfar

arXiv:2505.04015v1 安全类型: 横向摘要: 本文提出了一种名为 MergeGuard 的新方法，用于缓解 AI 木马攻击。AI 模型中的木马攻击会导致嵌入触发器的输入被误分类为目标对手的类别，对由不可信第三方训练的模型的可用性构成了重大威胁。MergeGuard 的核心是一种新的后训练方法，用于线性化和合并全连接层，我们证明该方法同时提高了模型的泛化能力和性能。我们对 Transformer 模型的概念验证评估表明，MergeGuard 在保持模型准确性的前提下，降低了木马攻击的成功率，性能优于常用的（后训练）木马缓解方法，这些方法通常通过微调实现。

发布时间: 5/8/2025

查看原文

基于物理的强化学习驱动角色控制器增强方法

作者: Michael Xu, Yi Shi, KangKang Yin, Xue Bin Peng

arXiv:2505.04002v1 宣告类型: cross 摘要：人类在灵活运用运动技能穿梭于多样性和复杂环境方面表现出色，例如攀爬墙壁和跨越缝隙等动态操作，这些都是公园技能实践者的典范。通过模拟角色重现这些灵巧的运动仍然具有挑战性，部分原因在于缺乏用于灵活地形导航行为的运动捕捉数据，以及获取此类数据的成本高昂。在这项工作中，我们引入了PARC（基于物理的增强与强化学习相结合的基于角色控制器框架），该框架结合了机器学习和基于物理的模拟以迭代地增强运动数据集，扩展地形穿越控制器的功能。PARC首先在一个小数据集上训练一个运动生成器，该数据集包含核心地形穿越技能。然后，运动生成器用于生成穿越新地形的合成数据。然而，这些生成的运动常常会出现错误接触或断点等瑕疵。为修正这些瑕疵，我们训练了一个基于物理的跟踪控制器来模仿模拟中的运动。修正后的运动随后被添加到数据集中，在下一迭代中用于继续训练运动生成器。PARC的迭代过程共同扩展了运动生成器和跟踪器的能力，创建了能够在复杂环境中灵活且多任务处理的模型。PARC提供了一种有效的方法来开发灵活地形穿越的控制器，填补了运动数据稀缺与多用途角色控制器需求之间的差距。

发布时间: 5/8/2025

查看原文