arXiv:2505.07833v1 声明类型:交叉
摘要:检索增强生成 (RAG) 已经成为通过与外部知识源集成来增强大型语言模型可靠性的新模式。然而,这些系统的高效部署由于其固有的异构计算管道(包括LLM、数据库和专用处理组件)而面临重大技术挑战。我们介绍了Patchwork,这是一种全面的端到端RAG服务框架,旨在解决这些效率瓶颈。Patchwork 的架构提供三项关键创新:首先,它提供了一个灵活的规范接口,使用户能够实现自定义的RAG管道。其次,它将这些管道部署为分布式推理系统,同时针对各个RAG组件的独特可扩展性特征进行优化。第三,Patchwork 包含一种在线调度机制,该机制持续监控请求负载和执行进度,通过战略性地优先处理请求和自动扩展资源动态最小化SLO违规。在四个不同RAG实现的实验评估中,Patchwork 在商业替代方案中表现出显著的性能改进,吞吐量提升了超过48%,同时SLO违规减少约24%。
arXiv:2505.07832v1 宣布类型:交叉
摘要:强化学习(RL)算法越来越多地被用于解决最优功率流(OPF)问题。然而,如何设计 RL 环境以最大化训练性能的问题仍未得到解答,无论是对于 OPF 还是一般情况。我们提出了一种利用多目标优化的通用方法来自动设计 RL 环境。为此,我们使用了超参数优化(HPO)框架,这使得可以重用现有的 HPO 算法和方法。在五个 OPF 基准问题上,我们证明了我们的自动设计方法在所有情况下都优于手工创建的基准环境设计。此外,我们使用统计分析来确定哪些环境设计决策对性能尤为重要,从而获得了多个关于如何设计 RL-OPF 环境的新的见解。最后,我们讨论了环境过度拟合所使用的 RL 算法的风险。据我们所知,这是第一个通用的自动 RL 环境设计方法。
arXiv:2505.07831v1 交叉类型公告
摘要:人工智能语言模型中的合成神经元的多义性目前被理解为是由于潜在空间内分布式特征的必要叠加的结果。我们提出了一种替代方法,从几何定义第n层的神经元为一个非正交基组成的分类向量空间,该非正交基由第n-1层前一个神经元提取的分类子维度组成。这种分类向量空间通过每个神经元的激活空间结构化,并通过神经元内部注意过程,识别和利用关键分类区域,以提高语言模型的效率——这种区域更加同质,并位于这些不同分类子维度的交集中。
arXiv:2505.07829v1 Announce Type: 跨越式
摘要:Blockbuster是一种用于推理程序的AI操作融合框架。Blockbuster框架适用于具有分层内存体系结构的任何多处理器架构,包括GPU、多核CPU和某些AI加速器芯片。它包含一种称为块程序的基于图的表现形式,该表现形式明确地表示数据块在内存层次之间的移动方式。它还包含一种操作融合程序,该程序由候选选择算法和一个将每个单独候选操作融合的融合算法组成——这种双算法结构使Blockbuster特别适合大型AI程序。当前的论文集中在融合算法上,该算法是一种基于规则的技术。尽管文献中充满了基于规则的融合算法,但我们的算法的独特之处在于它直接对内存层次之间的数据移动进行了建模,从而产生了独特而强大的融合结果。作为第一次合理性检查,我们展示了我们的算法如何自动重新发现广为人知的Flash Attention内核。然后,我们通过将LayerNorm与矩阵乘法融合,以及将RMSNorm与FNN-SwiGLU融合,展示了我们方法的实际威力——后者涉及将三个矩阵乘法、哈达玛积、归约和几种元素操作融合为一个巨核。
arXiv:2505.07828v1 声明类型: cross
摘要:区块链与人工智能(AI)的结合催生了基于AI的代币,这些加密资产旨在为去中心化的AI平台和服务提供动力。本文对领先的AI代币项目进行了全面回顾,探讨了它们的技术架构、代币功能、共识机制以及底层商业模式。我们探讨了这些代币在各种区块链生态系统中的运作方式,并评估它们在传统集中式AI服务之外提供的价值程度。基于此评估,我们的分析指出了几个核心限制。从技术角度来看,许多平台依赖大量的链下计算,展示出有限的链上智能能力,并遇到重要的可扩展性挑战。从商业角度来看,许多模型似乎复制了集中式AI服务的结构,仅仅增加了基于代币的支付和治理层,而未能提供真正新颖的价值。鉴于这些挑战,我们还研究了可能塑造去中心化AI系统下一阶段发展的新兴发展。这些包括链上验证AI输出的方法,基于区块链的联邦学习,以及更稳健的激励框架。总体而言,虽然新兴创新为加强去中心化AI生态系统提供了途径,但当前AI代币实现之间承诺与现实之间仍然存在显著差距。我们的发现为AI和区块链交叉研究的发展贡献了一部分,强调了随着该领域不断发展,需要进行关键评估和更务实的方法。
arXiv:2505.07058v1 Announce Type: cross
摘要:人工智能(AI)正在迅速扩展并更多地融入日常生活中,以自动化任务、指导决策并提高效率。然而,复杂的人工智能模型在不提供清晰解释的情况下做出决策(这一现象被称为“黑盒问题”),目前限制了人们对人工智能的信任和普遍采用。可解释的人工智能(XAI)已经出现,旨在解决黑盒问题,使人工智能系统更具可解释性和透明性,以便利益相关者可以信任、验证并依赖基于人工智能的结果。研究者已经开发出了各种技术以在软件开发生命周期(SDLC)中促进XAI的应用。然而,在软件工程阶段应用XAI技术仍存在空白。文献综述表明,在软件工程研究中,68%的XAI集中在维护方面,而仅有8%集中在软件管理和需求方面。在本文中,我们对概念驱动的解释、局部可解释模型通用解释器(LIME)、SHapley加性解释(SHAP)、规则提取、注意力机制、反事实解释和基于示例的解释等可解释的人工智能方法在软件开发生命周期(SDLC)的不同阶段的应用进行了全面调研。到我们所知,这是首次对每一个软件开发生命周期(SDLC)阶段的可解释人工智能技术进行全面调查的文章。本文的调研旨在促进在软件工程中的人工智能解释性,并有助于在人工智能驱动的软件开发中实际应用复杂的AI模型。
arXiv:2505.07045v1 交叉公告类型:交叉学科
摘要:基于强化学习(RL)的供暖、通风和空调(HVAC)控制技术已经成为了减少建筑能耗、同时保持室内热舒适的一种有前景的技术。然而,这些策略的有效性受到背景气候的影响,其实施可能潜在地改变室内气候和局部城市气候。本研究提出了一种结合RL与城市气候模型的集成框架,该模型包含了建筑能源模型,旨在评估不同背景气候下基于RL的HVAC控制的有效性、RL策略对室内气候和局部城市气候的影响,以及RL策略在不同城市之间的可转移性。我们的研究结果表明,奖励(定义为能耗和热舒适性的加权组合)以及RL策略对室内气候和局部城市气候的影响在不同背景气候的城市中表现出明显的差异。奖励权重的敏感性和RL策略的可转移性也强烈受背景气候的影响。在平衡能耗和热舒适性的奖励权重配置中,处于热气候中的城市通常能够获得更高的奖励,而那些大气温度变化较大的城市表现出更高的RL策略可转移性。这些研究结果强调了在不同气候背景下彻底评估基于RL的HVAC控制策略的重要性。这项研究还提供了一种新的见解,即城市间的学习可能会有助于基于RL的HVAC控制的应用部署。
arXiv:2505.08778v1 宣布类型: 新
摘要: Abstraction and Reasoning Corpus (ARC) 后来改名为 ARC-AGI,为人工智能通用智能 (AGI) 提出了一个基本挑战,需要解决方案展示在多种任务中稳健的抽象和推理能力,而仅提供了少量(中位数三个)正确的示例。尽管 ARC-AGI 对人工智能系统来说仍然非常具有挑战性,但对人类来说相对容易。本文介绍了 ARC-NCA,这是一种发展性方法,利用标准神经细胞自动机 (NCA) 和增强隐藏记忆的 NCA(EngramNCA)来应对 ARC-AGI 基准测试。NCA 用于其固有的模拟复杂动态和涌现模式的能力,模仿生物系统中观察到的发育过程。发展性解决方案可能为增强 AI 的问题解决能力提供一条有希望的道路,超越仅仅依赖训练数据外推。ARC-NCA 证明了将发展性原则整合到计算模型中可以促进适应性推理和抽象的发展。我们展示了我们的 ARC-NCA 概念验证结果可能与甚至有时超越 ChatGPT 4.5 的结果,成本仅为一部分。
arXiv:2505.08744v1 宣布类型: 新颖
摘要: 为了推进大型语言模型(LLMs)的数学能力,DeepMath 团队启动了一个开源项目,旨在开发一个开放的数学 LLM 并系统地评估其数学创造力。本文代表了该项目的初始贡献。尽管最近在数学 LLM 发展方面的进步主要集中在推理技能上,这在从基础到本科级的数学任务基准测试中得到了体现,但这些模型的创造性能力受到了相对较少的关注,评估数据集也相对稀缺。为了解决这一差距,我们提出了一套数学创造力的评估标准,并引入了 DeepMath-Creative,这是一个全新的、高质量的基准,涵盖了代数、几何、分析及其他领域的构造性问题。我们使用这个数据集对主流 LLM 的创造性问题解决能力进行了系统评估。实验结果表明,即使在宽松评分标准下——强调核心解决方案要素,忽略小逻辑漏洞、不完整的证明或冗余解释等细节——性能最好的模型 O3 Mini 也仅能实现70%的准确率,主要是在基础本科级的构造性任务上。而对于更复杂的问题,性能急剧下降,模型无法提供实质性的开放问题解决策略。这些发现表明,尽管当前 LLMs 在熟悉和难度较低的问题上展现出一定程度的构造能力,这种表现可能更多来自于记忆模式的重组,而非真正的创造性洞察或新颖的综合。
arXiv:2505.08704v1 公告类型:新
摘要:电子健康记录(EHRs)是患者的数字信息记录,通常包含未结构化的临床文本。实体识别(NER)在EHR中对于提取如问题、检查和治疗方法的关键医疗实体以支持下游临床应用至关重要。本文探讨了使用大型语言模型(LLMs),特别是GPT-4o和DeepSeek-R1的基于提示的医疗实体识别方法,这些方法受到各种提示工程技术的指导,包括零样本、少量样本以及集成方法。在所有策略中,使用提示集成的GPT-4o在F1分数为0.95和召回率为0.98的情况下获得了最高的分类性能,优于在任务中表现的DeepSeek-R1。集成方法通过基于嵌入的相似性和多数投票来提高可靠性。