arXiv 论文列表

大规模语言模型能预测并行代码性能吗？

作者: Gregory Bolet, Giorgis Georgakoudis, Harshitha Menon, Konstantinos Parasyris, Niranjan Hasabnis, Hayden Estes, Kirk W. Cameron, Gal Oren

arXiv:2505.03988v1 类型: cross 摘要: 准确地确定并行GPU代码的性能通常需要在目标硬件上进行运行时剖析——由于高端GPU访问受限，这变得越来越不可行。本文探讨大型语言模型（LLMs）是否可以提供一种不依赖硬件的GPU性能预测替代方法。我们将问题框定为屋顶线分类任务：给定GPU内核的源代码和目标GPU的硬件规格，LLM能否预测GPU内核是算术绑定还是带宽绑定？为此研究，我们构建了一个平衡的数据集，包含340个GPU内核，这些内核来自HeCBench基准测试，并用CUDA和OpenMP编写，同时获得了通过实验GPU剖析得到的真实标签。我们评估了LLM在四种场景下的表现：（1）具有内核源代码的剖析数据访问，（2）仅使用源代码的零样本推理，（3）具有代码和标签对的小样本推理，以及（4）在小型自定义数据集上进行微调。我们的结果显示，最先进的LLM对屋顶线模型有很强的理解，在提供显式剖析数据时实现了100%的分类准确率。我们还发现，在零样本和小样本推理中，具有推理能力的LLM显著优于标准LLM，在没有剖析信息的情况下，GPU源代码的准确率达到最高64%。最后，我们发现，LLM的微调将需要比我们目前可用的数据更多。这项工作是首次使用LLM通过分类来进行源代码级别屋顶线性能预测的工作，它展示了当运行时剖析不切实际时，LLM指导优化工作的潜力。我们的发现表明，通过改进数据集和提示策略，LLM可能成为HPC性能分析和性能移植的实用工具。

发布时间: 5/8/2025

查看原文

扩散模型实际上是可交换的：通过自动推测并行化DDPMs

作者: Hengyuan Hu, Aniket Das, Dorsa Sadigh, Nima Anari

arXiv:2505.03983v1 交叉类型: cross 摘要：去噪扩散概率模型（DDPMs）已成为生成建模的强大力量。然而，它们的顺序计算需求导致了显著的推理时间瓶颈。在本文中，我们利用DDPMs与随机局部化的连接，证明在适当的重参数化下，DDPM的增量满足交换性性质。这一一般性的见解使得可以将自回归模型中的各种性能优化技术近乎无损地适应到扩散设置中。为了证明这一点，我们引入了\emph{自动推测解码}（ASD），这是一种将广泛使用的推测解码算法扩展到DDPM中，并且不需要任何辅助草稿模型的方法。我们的理论分析表明，ASD 在 $K$ 步顺序DDPM上的并行运行时间加速达到了 $\tilde{O}(K^{\frac{1}{3}})$。我们还展示了自动推测解码的实际实现可以显著加速DDPM推理在各种领域的运行。

发布时间: 5/8/2025

查看原文

X-推理器：跨模态和领域的一般化推理探索

作者: Qianchu Liu, Sheng Zhang, Guanghui Qin, Timothy Ossowski, Yu Gu, Ying Jin, Sid Kiblawi, Sam Preston, Mu Wei, Paul Vozila, Tristan Naumann, Hoifung Poon

arXiv:2505.03981v1 交叉类型：cross 摘要：最近的私有模型（例如o3）已经开始展示出强大的多模态推理能力。然而，大多数现有的开源研究集中在训练仅限文本的推理模型上，评估主要限于数学和一般领域任务。因此，仍不清楚如何有效地将推理能力扩展到文本输入之外和一般领域之外。本文探讨了一个基本的研究问题：推理是否能够在不同模态和领域之间泛化？我们的发现支持了肯定的答案：针对一般领域的文本进行后训练可以实现这种强大的泛化推理。利用这一发现，我们引入了X-Reasoner，这是一种仅针对一般领域的文本进行后训练的视觉语言模型，用于实现泛化推理，采用两阶段的方法：初始的监督微调阶段，采用提炼出的长链推理，接着是基于可验证奖励的强化学习。实验结果表明，X-Reasoner 成功地将推理能力转移到了多模态和跨领域设置中，在各类一般和医疗基准测试中超过了现有的最先进的模型（图1）。此外，我们发现，通过在特定领域文本数据上继续训练，X-Reasoner 在特定领域的表现可以进一步提升。在此基础上，我们引入了X-Reasoner-Med，这是一种专注于医疗领域的变体，其在多个仅文本和多模态医疗基准测试中达到了新的最先进的水平。

发布时间: 5/8/2025

查看原文

基础设施维护的深度学习框架：裂缝检测与基础设施表面高分辨率成像

作者: Nikhil M. Pawar, Jorge A. Prozzi, Feng Hong, Surya Sarat Chandra Congress

arXiv:2505.03974v1 类型: cross 摘要: 最近，无人机搭载摄像头传感器等先进数据采集平台在基础设施资产管理中的应用有所增加。然而，传感器特性、与结构的接近程度、难以到达的访问点以及环境条件往往限制了数据集的分辨率。一些研究使用了超分辨率技术来解决低分辨率图像的问题。然而，这些技术由于考虑了所有基础设施图像（即，正负损伤类别），导致计算成本增加和损伤检测的误报增多。为了应对误报警警的预处理并实现高效的超分辨率，本研究开发了一种由卷积神经网络（CNN）和轻量级子像素卷积神经网络（ESPCNN）组成的框架。CNN 准确地分类了两类图像。ESPCNN 是一种轻量级的超分辨率技术，从 CNN 获取了正损伤的高分辨率基础设施图像。在所有超分辨率评估指标中，ESPCNN 在所有评价指标中均优于双三次插值。根据性能指标，结合 CNN 和 ESPCNN 被观察到在预处理包含负面损伤的基础设施图像中有效，减少了后续超分辨率步骤中的计算成本和误报。视觉检查表明，ESPCNN 能够捕捉裂缝的传播、即使是微小裂缝的复杂几何形状。所提出的框架有望帮助高速公路管理部门准确进行损伤检测，并协助高效资产管理系统。

发布时间: 5/8/2025

查看原文

多用户系统中高性能计算调度的去中心化分布式近端策略优化（DD-PPO）

作者: Matthew Sgambati, Aleksandar Vakanski, Matthew Anderson

arXiv:2505.03946v1 识别类型: cross 摘要: 高性能计算(HPC)环境中的资源分配为作业调度算法带来了复杂且多方面的挑战。除了有效分配系统资源外，调度程序还必须考虑并优化多个性能指标，包括作业等待时间和系统利用率。虽然传统的基于规则的调度算法目前主导着HPC系统的部署，但这些系统的日益异构性和规模预计将挑战这些算法在减少作业等待时间和最大化利用率方面的效率和灵活性。最近的研究努力集中在利用强化学习(Reinforcement Learning, RL)的进展来开发更具适应性和智能的调度策略。最近的基于RL的调度方法探索了从深度Q网络(DQN)到策略梯度优化(PPO)等各种算法，并且最近还探索了将图神经网络与RL技术结合的混合方法。然而，这些方法的一个共同局限性是它们对相对较小的数据集的依赖，当使用大数据集时，这些方法会面临可扩展性问题。本研究介绍了一种新的基于RL的调度器，该调度器采用分散分布的策略梯度优化(DD-PPO)算法，在多个工人之间进行大规模分布式训练，而无需在每一步时都进行参数同步。通过消除对集中更新共享策略的依赖，DD-PPO调度器增强了可扩展性、训练效率和样本利用。验证数据集利用了超过1150万个真实的HPC作业轨迹，以比较DD-PPO与传统及先进的调度方法之间的性能，并且实验结果表明，DD-PPO的调度性能优于基于规则的调度器和现有的基于RL的调度算法。

发布时间: 5/8/2025

查看原文

AI驱动的云 computing 安全：增强威胁检测、自动化响应和网络弹性

作者: Shamnad Mohamed Shaffi, Sunish Vengathattil, Jezeena Nikarthil Sidhick, Resmi Vijayan

arXiv:2505.03945v1 宣布类型：交叉摘要：近年来，由于计算世界中日益复杂的威胁，云安全问题得到了极大的重视。许多传统解决方案在实时检测或预防更复杂的威胁时表现不佳。今天，人工智能被认为是通过机器学习、计算基础设施的统计可视化以及检测安全漏洞并采取反制措施来确定云数据架构保护计划的一场革命。这些基于人工智能的系统使得工作变得更加容易，因为在审查更多网络活动时，任何可能会导致更严重漏洞的异常行为得到了预防。本文探讨了AI如何通过应用预测分析、基于行为的安全威胁检测以及AI驱动的加密来增强云安全的方法。同时，本文还指出了之前的安全模型的问题，并阐述了AI如何克服这些问题。出于类似的原因，本文还讨论了数据隐私、AI模型中的偏见以及合规性等问题。因此，AI改善了云计算环境下的保护措施；然而，仍需在后续阶段采取更多努力以提高该技术的可靠性和模块化，并解决伦理问题。这意味着AI可以与其他新兴计算技术，包括区块链，相结合，进一步改进安全框架。本文讨论了使用AI增强云数据架构安全性的当前趋势，并提出了进一步的研究和应用方向。

发布时间: 5/8/2025

查看原文

具有非凸正则化函数的统计模型参数估计的图形全局优化框架

作者: Danial Davarnia, Mohammadreza Kiaghadi

arXiv:2505.03899v1 类别：交叉主题摘要：带有范数约束的优化问题在多种应用中出现，包括投资组合优化、机器学习和特征选择。对于这些问题，一种常见的方法是通过拉格朗日松弛先放松范数约束，然后将其转化为目标函数中的正则化项。特别具有挑战性的一类是零范数函数，它在统计参数估计中促进稀疏性。当前大多数精确求解这些问题的方法引入二元变量和人工边界，将问题重新形式化为可由标准求解器解决的混合整数规划问题。其他精确方法利用目标函数的具体结构特性，但难以在不同问题类型间泛化。替代方法使用非凸惩罚项，这些非凸惩罚项具有良好的统计特性，但由于其结构复杂性，通常使用启发式或局部优化技术来解决。本文提出了一种基于图的方法来全局求解涉及广义范数约束的优化问题，这种方法涵盖标准的$\ell_p$范数（$p \in [0, \infty)$）以及SCAD和MCP等非凸惩罚项。我们利用决策图直接在原始变量空间中构建强凸松弛，从而避免使用辅助变量或人工边界。将该方法集成到空间分支定界框架中，可以确保全局最优解的收敛性。通过初步的计算实验，我们在涉及复杂非凸惩罚项的标准稀疏线性回归问题上展示了该方法的有效性，而现有全球优化技术对此类问题是不可行的。

发布时间: 5/8/2025

查看原文

新型鉴别性细粒度特征提取以改进视网膜血管分割

作者: Shuang Zeng, Chee Hong Lee, Micky C Nnamdi, Wenqi Shi, J Ben Tamo, Lei Zhu, Hangzhou He, Xinliang Zhang, Qian Chen, May D. Wang, Yanye Lu, Qiushi Ren

arXiv:2505.03896v1 类别:交叉学科摘要：视网膜血管分割是几种严重眼病早期检测的关键方法。尽管随着神经网络的发展，视网膜血管分割取得了显著进展，但仍面临诸多挑战。具体来说，视网膜血管分割旨在预测基金图像中每个像素的类别标签，主要关注图像内部的区分，因此要求模型提取更具区分性的特征。然而，现有的方法主要侧重于最小化解码器输出与标签之间的差异，但忽略了充分利用编码器中的特征级别细粒度表示。为解决这些问题，我们提出了一种新颖的注意力U形Kolmogorov-Arnold网络（AttUKAN）和一种新型的标签引导像素级对比损失，用于视网膜血管分割。具体而言，我们在Kolmogorov-Arnold网络中实现了注意力门控机制，以通过抑制无关特征激活和采用非线性建模方式的KAN块提高模型的敏感性和可解释性。此外，我们还设计了一种新型的标签引导像素级对比损失，通过区分前景血管像素对和背景对来监督我们提出的AttUKAN，从而提取出更多的区分性特征。我们在DRIVE、STARE、CHASE_DB1、HRF和我们自己的私人数据集上进行了实验。AttUKAN在上述数据集中的F1分数分别为82.50%、81.14%、81.34%、80.21%和80.09%，IoU分数分别为70.24%、68.64%、68.59%、67.21%和66.94%，这些分数在与11个视网膜血管分割网络的比较中最高。定量和定性结果表明，我们的AttUKAN取得了最先进的性能，并优于现有的视网膜血管分割方法。我们的代码将在https://github.com/stevezs315/AttUKAN。

发布时间: 5/8/2025

查看原文

Scratch Copilot：以AI支持 youth 创意编程

作者: Stefania Druga, Amy J. Ko

arXiv:2505.03867v1 跨学科类型：交叉摘要：像Scratch这样的创意编码平台已经使编程民主化，让儿童可以接触编程，然而，将富有创意的想法转化为功能代码仍然是许多学龄儿童的一大障碍。尽管人工智能副驾已经帮助了成年程序员，但很少有工具专门针对积木式环境中的儿童。在此前研究的基础上，包括[druga_how_2021, druga2023ai, druga2023scratch]，我们介绍了Cognimates Scratch Copilot：一种集成在类似Scratch的环境中的人工智能辅助工具，为创意构思、代码生成、调试和资源创作提供实时支持。本文详细介绍了系统架构和对18名国际儿童（年龄7-12岁）进行的探索性定性评估的研究发现。我们的分析揭示了人工智能副驾如何支持关键的创意编码流程，特别是在创意构思和调试方面起到了帮助作用。至关重要的是，它还突显了儿童如何积极地与人工智能互动，表现出强烈的自主性，通过接受或拒绝建议来维持创意控制。互动展示了在提供有用支撑的同时促进独立问题解决之间存在的设计困境，以及在应对人工智能限制与错误时产生的学习机会。研究结果表明，Cognimates Scratch Copilot有可能增强创意自 efficacy 和参与度。基于这些见解，我们提出了初始的人工智能编程助手设计指南，强调青年的自主性和批判性互动与支持性支撑相结合的重要性。

发布时间: 5/8/2025

查看原文

从粘合剂代码到协议：对A2A和MCP集成以实现可扩展代理系统的关键分析

作者: Qiaomu Li, Ying Xie

arXiv:2505.03864v1 类型:交叉学科摘要：人工智能正在迅速向多代理系统发展，在这种系统中，众多的人工智能代理相互协作并与其他外部工具进行交互。谷歌的代理间通信（Agent to Agent, A2A）协议和 Anthropic 的模型上下文协议（Model Context Protocol, MCP）是两种关键的开放标准，它们有望克服碎片化的、定制化的整合方式所带来的限制。尽管这两种协议的协同潜力巨大，本文认为，在 A2A 和 MCP 交汇处有效地整合它们面临着独特的、新兴的挑战，特别是代理任务与工具能力之间的语义互操作性问题，结合的发现和执行所带来的累积安全风险，以及实现所设想的“代理经济”所需的实际治理。本文提供了关键性的分析，超越了简单的文献综述，以评估将这些水平和垂直整合标准结合在一起的实际影响及其固有的困难。我们考察了其优点（例如，专业化、扩展性）的同时，对其在整合语境下的依赖性和权衡进行了关键性评估。我们指出了集成增加的关键挑战，包括新颖的安全漏洞、隐私复杂性、跨协议的调试困难，以及需要强大的语义谈判机制。总之，A2A+MCP 提供了一个重要的架构基础，但要充分发挥其潜力，需在管理它们联合运行的复杂性方面取得重大进展。

发布时间: 5/8/2025

查看原文