arXiv:2504.03686v1 宣布类型:交叉
摘要:第六代(6G)移动网络的一个关键任务是在网络边缘部署大规模人工智能(AI)模型,为边缘设备提供远程推理服务。由此产生的平台,称为边缘推理,将支持诸如自动驾驶、工业自动化和增强现实等广泛的物联网应用。鉴于这些任务的至关重要性和时间敏感性,设计既可靠又能够满足严格的端到端(E2E)延迟约束的边缘推理系统至关重要。现有研究主要关注通过信道中断概率表征的通信可靠性,可能无法保证E2E性能,特别是从E2E推理准确度和延迟方面。为了解决这一局限性,我们提出了一种理论框架,引入并从数学上对推理中断(InfOut)概率进行了表征,量化了端到端推理准确度低于目标阈值的可能性。在E2E延迟约束下,该框架建立了通信开销(即上传更多的传感器观测值)与由InfOut概率表征的推理可靠性之间的基本权衡。为了找到优化这一权衡的关系的可处理方法,我们通过对接收判别增益分布应用高斯近似,推导出了InfOut概率的准确替代函数。实验结果表明,与传统的通信中心方法相比,所提出的方案在E2E推理可靠性方面更为优越。
arXiv:2504.03682v1 宣告类型: cross
摘要:随着云计算应用的迅速扩展,优化资源分配已成为提高系统性能和成本效率的关键。本文提出了一种智能资源分配算法,该算法利用深度学习(LSTM)进行需求预测,并利用强化学习(DQN)进行动态调度。通过准确预测计算资源需求并实现实时调整,所提出的系统将资源利用率提高了32.5%,平均响应时间缩短了43.3%,运营成本降低了26.6%。在生产云环境中的实验结果证实,该方法显著提高了效率,同时保持了高水平的服务质量。本研究提供了一种可扩展且有效的智能云资源管理解决方案,为未来的云优化策略提供了宝贵见解。
arXiv:2504.03671v1 交叉公告类型
摘要:在这项工作中,我们介绍了HiAER-Spike,这是一个模块化、可重构、事件驱动的神经形态计算平台,旨在执行多达1.6亿个神经元和400亿个突触的大型脉冲神经网络,可以在实时计算速度的两倍以上运行。目前在加州大学圣迭戈分校超级计算中心建设的该系统,包含了一个针对运行时大规模并行处理以及层级地址事件路由(HiAER)进行优化的软硬件栈。我们的架构能够有效地处理稀疏连接和稀疏活动,以实现稳健且低延迟的事件驱动推理,适用于边缘和云计算。HiAER-Spike提供了一个无硬件细节偏见的Python编程接口,使用户能够在几乎无拓扑限制的情况下配置和执行通用脉冲神经网络,而不会陷入复杂的配置和执行体验之中。该系统可通过网络门户方便地供更广泛的社区使用。以下我们提供了软硬件栈的概览,解释了底层设计原则,展示了系统的一些功能,并希望从更广泛的神经形态社区获得反馈。
arXiv:2504.03669v1 类型: cross
摘要: 管路布局是航空发动机设计中一个高度复杂、耗时且属于非确定性多项式时间难题(NP-hard)的问题。尽管在优化恒曲率管路布局方面进行了广泛的研究,但对自由形管路的日益增长的需求提出了新的挑战。动态设计环境和模糊布局规则进一步影响了优化性能和效率。为应对这些挑战,本研究提出了一种基于自我学习的方法(SLPR)以优化航空发动机中自由形管路布局。SLPR基于proximal策略优化(PPO)算法,并结合了一个统一规则建模框架,以高效地进行障碍物检测和连续空间中的模糊规则建模。此外,建立了一个潜在能量表以实现对布局倾向和干涉的快速查询。SLPR中的代理通过与环境的交互逐步精化管路布局,并通过积累设计知识。一旦设计环境发生变化,代理可以通过微调网络参数迅速适应。对比测试表明,SLPR通过三次非均匀B样条(NURBS)曲线确保平滑的管路布局,避免了恒曲率管路布局中存在的冗余管段。在静态和动态设计环境中,SLPR在管路长度减少、遵守布局规则、路径复杂性和计算效率方面均优于三种代表性基准方法。此外,在动态环境中进行的测试表明,SLPR消除了从零开始的繁重搜索,并且在某些情况下甚至比重新训练的模型提供了更好的解决方案。这些结果突显了SLPR在现实世界管路布局中的实用价值,满足了现代航空发动机设计的轻量化、精确度和可持续性要求。
arXiv:2504.03665v1 跨域公告类型:交叉
摘要:大型语言模型(LLMs),如GPT-4和DeepSeek,已在软件工程的多个领域得到应用。然而,在高性能计算(HPC)的背景下,它们的潜力仍然有待探索。本文评估了最近的LLM DeepSeek在生成一组HPC基准代码方面的表现:共轭梯度求解器、并行热方程、并行矩阵乘法、DGEMM以及STREAM三元操作。我们分析了DeepSeek在C++、Fortran、Julia和Python等传统HPC语言的代码生成能力。评估包括对代码正确性、性能以及在不同配置和矩阵大小下的扩展性的测试。我们还提供了DeepSeek与另一个广泛使用的工具GPT-4之间的详细比较。结果表明,尽管DeepSeek能够生成适用于HPC任务的功能性代码,但在生成代码的可扩展性和执行效率方面仍落后于GPT-4。
arXiv:2504.03664v1 Announce Type: cross
摘要:大型语言模型(LLMs)的高内存和计算需求使得它们因受限的GPU内存而难以部署在消费设备上。卸载可以缓解内存限制,但通常会导致GPU利用率低,从而导致推理效率低下。在这项工作中,我们提出了一种名为流水线卸载(PIPO)的新型框架,用于消费设备上的高效推理。PIPO设计了一种细粒度的卸载流水线,结合优化的数据传输和计算,以实现高并发和高效的推理调度。实验结果表明,与最先进的基线相比,PIPO将GPU利用率从不到40%提高到超过90%,并实现了高达3.1倍更高的吞吐量,运行设备为配备6GB内存的RTX3060 GPU的笔记本电脑。
arXiv:2504.03654v1 Announce Type: cross
摘要:在资源受限的边缘设备上运行深度学习模型由于其快速响应、隐私保护以及在缺乏互联网连接情况下依然稳健的运行,已经引起了广泛关注。尽管这些设备已经能够处理各种智能任务,但在配备多种低功耗加速器(即移动GPU和NPU)的最新边缘设备中,可以带来另一种机会;一个在过去由于单加速器世界中的计算量过大而无法实现的任务,在即将到来的异构加速器世界中可能变得可行。为了在3D物体检测的背景下实现这种潜力,我们识别出几个技术挑战,并提出了一个针对多加速器边缘设备的新型3D物体检测框架PointSplit,以解决这些问题。具体来说,我们的PointSplit设计包括:(1)2D语义感知偏差点采样,(2)并行3D特征提取,以及(3)基于角色的分组量化。我们在TensorFlow Lite上实现了PointSplit,并在集成了移动GPU和EdgeTPU的自定义硬件平台上进行了评估。在代表性的RGB-D数据集SUN RGB-D和ScanNet V2上的实验结果显示,与仅使用GPU的全精度、2D-3D融合基于的3D检测器相比,多加速器设备上的PointSplit在保持相似准确性的前提下快了24.7倍。
arXiv:2504.03651v1 宣告类型: cross
摘要: 大型语言模型在各种应用中得到了广泛应用,涵盖了交互式在线任务和批量离线任务。鉴于在线任务的突发性和对延迟的敏感性,过度分配资源是常见做法。这允许在在线负载较低的时期整合延迟不敏感的离线任务,提高资源利用率。然而,通过预emption机制战略性地为在线和离线任务服务在利用离线任务的灵活性方面存在不足,并且存在KV缓存重新计算和不规则的工作负载问题。
在这篇论文中,我们引入了Echo,一个协作的在线离线任务服务系统,包括调度器、KV缓存管理器和估算工具包。调度器和KV缓存管理器紧密合作,最大化离线任务的吞吐量,而估算工具包进一步预测执行时间以确保在线任务的SLO。调度器利用上一次迭代的批处理信息来减少寻找最优调度方案的搜索空间。KV缓存管理器根据任务类型和前缀共享的机会设置KV缓存的优先级,以减少重新计算。最后,估算工具包预测离线任务的执行时间、未来内存消耗和吞吐量,以引导调度器、KV缓存管理器和系统部署者。基于实际工作负载的评估表明,Echo可以将离线任务的吞吐量提高多达3.3倍,同时满足在线任务的SLO。
arXiv:2504.03650v1 安全公告类型: 交叉
摘要: BoxRL-NNV 是一个 Python 工具,用于通过计算输出变量的边界来检测神经网络中的安全违规行为,给定网络输入变量的边界。这通过使用拉丁超立方取样计算全局极值来完成,并进一步使用 L-BFGS-B 对初始猜测附近的局部优化进行细化。本文介绍了 BoxRL-NNV 的概述,以及对 ACAS Xu 基准部分的结果。工具性能的完整评估,包括与最新工具的基准比较,将在第六届国际神经网络验证竞赛 (VNN-COMP'25) 上呈现。
arXiv:2504.03648v1 类型: cross
摘要: 我们引入了AIBrix,这是一个云原生、开源框架,旨在优化和简化在云环境中大规模LLM部署。与传统的云原生堆栈不同,AIBrix遵循一种协同设计理念,确保每一层基础设施都能无缝集成到类似于vLLM的推理引擎中。AIBrix引入了几项关键技术创新以降低推理成本并提升性能,包括用于动态适配器调度的高密度LoRA管理、针对特定LLM的自动扩容器以及前缀感知和负载感知的路由。为了进一步提高效率,AIBrix整合了一个分布式KV缓存,促进了节点间令牌的重用,从而将吞吐量提高50%,并将推理延迟减少70%。AIBrix还支持统一AI运行时,简化模型管理同时保持对不同供应商引擎的兼容性。对于大规模多节点推理,AIBrix采用混合编排——利用Kubernetes进行粗粒度调度,并利用Ray进行细粒度执行——以平衡效率和灵活性。此外,基于SLO的GPU优化器动态调整资源分配,优化异构服务,以最大化成本效率同时保持服务质量。最后,AIBrix通过AI加速器诊断工具增强了系统可靠性,实现了自动化故障检测和模拟测试,以提高故障耐受性。AIBrix可在https://github.com/vllm-project/aibrix获取。