arXiv:2504.19188v1 类别:交叉学科
摘要:大型语言模型(LLMs)在形式定理证明方面显示出潜力,但它们的标记级处理往往未能捕捉到数学证明的固有层次结构。我们引入了**层次注意力**作为一种正则化方法,使LLMs的注意力机制与数学推理结构对齐。我们的方法建立了从基本元素到高级概念的五级层次结构,确保了证明生成中的结构化信息流。实验表明,我们的方法在miniF2F上将证明成功率提高了2.05%,在ProofNet上提高了1.69%,同时分别减少了23.81%和16.50%的证明复杂性。相关代码可从https://github.com/Car-pe/HAGBP获取。
arXiv:2504.19162v1 评估类型:交叉
摘要:评估大型语言模型(LLM)推理的逐步可靠性(如链式思考)仍然颇具挑战,主要原因在于获取高质量的步骤级监督难度和成本较高。本文中,我们提出了自我博弈评论家(Self-Play Critic, SPC)这一新颖方法,通过敌对的自我博弈游戏使评论家模型演化出评估推理步骤的能力,从而消除手动步骤级标注的需求。SPC 涉及对一个基础模型的两个副本进行微调,分别担任“狡猾生成器”和“评论家”的角色。“狡猾生成器”刻意生成难以检测的错误步骤,而“评论家”则分析推理步骤的正确性。这两款模型进行一项敌对游戏,在该游戏中生成器试图愚弄评论家,而评论家模型则试图识别生成器的错误。基于游戏结果的强化学习,模型能够逐步改进;每次对抗的胜者获得正奖励,而失败者则获得负奖励,从而推动持续的自我进化。在三个推理过程基准(ProcessBench、PRM800K、DeltaBench)上进行的实验表明,我们的SPC 进一步增强了其错误检测能力(例如,在ProcessBench 上准确性从70.8% 增加到77.7%),并超过了强大的基准模型,包括精简的R1 模型。此外,将SPC 应用于指导不同 LLM 的测试时搜索,在MATH500 和AIME2024 上显著提高了它们的数学推理性能,优于最先进的过程奖励模型。
arXiv:2504.19155v1 类型:交叉
摘要:本研究通过开发一种基于AI的模型来增强X射线成像中的蒙特卡洛模拟精度,该模型用于模拟阳极脚效应,从而实现了更优的束流强度分布和剂量精度。通过动态调整X射线管阳极和阴极两侧的束流权重,我们的机器学习模型有效复制了临床X射线束的不对称特性。实验结果表明,在50至120 kVp的能量水平上,阴极侧的剂量率提高了多达9.6%,阳极侧的剂量率降低了多达12.5%。这些实验优化的束流权重被集成到OpenGATE和GGEMS蒙特卡洛工具包中,显著提高了剂量模拟精度,并使图像质量更接近临床成像。通过使用通量和剂量行为者进行验证,表明基于AI的模型能密切模拟临床束流行为,从而在传统X射线模型基础上提高了剂量一致性和准确性。这种方法为改进X射线剂量学提供了一个坚固的框架,具有在临床和研究中实现剂量优化、提高成像质量和辐射安全的潜在应用。
arXiv:2504.19142v1 宣布类型:交叉
摘要:大多数大型企业构建预定义的数据管道,并定期执行这些管道以使用SQL查询处理各种任务中的运营数据。这些管道的总体周转时间最短的关键问题是管道内并发查询的高效调度。现有的工具主要依赖于简单的启发式规则,因为很难表达查询的复杂特性和相互影响。最新的基于强化学习(RL)的方法有可能从反馈中捕捉这些模式,但由于调度空间庞大、采样成本高和样本利用效率低,直接应用它们仍具有挑战性。
鉴于这些挑战,我们提出了BQSched,一种通过强化学习实现批并发查询非侵入性调度器。具体而言,BQSched 设计了一种基于注意力的状态表示来捕捉复杂的查询模式,并提出了一种增强辅助任务的近似策略优化(PPO)算法IQ-PPO,以充分开发利用日志中单个查询完成的丰富信号。在上述的RL框架基础上,BQSched 进一步引入了三种优化策略,包括自适应掩码以修剪动作空间、基于调度增益的查询聚类以应对大规模查询集,以及增量模拟器以降低采样成本。据我们所知,BQSched 是第一个通过RL实现批并发查询非侵入性调度器。广泛的实验表明,BQSched 可以显著提高批并发查询调度的效率和稳定性,同时在数据和查询方面具备显著的可扩展性和适应性。例如,在所有测试的DBMS和规模下,与通常使用的启发式策略和适应性RL调度器相比,BQSched 在TPC-DS基准测试中批查询的总体周转时间平均分别减少了34%和13%。
arXiv:2504.19139v1 宣传类型:交叉
摘要:在顺序决策中,任务稳健适应是一个长期追求的目标。一些规避风险的策略,例如条件价值在风险原则,被融入领域随机化或元强化学习中,以在优化中优先考虑困难的任务,这需要大量昂贵的密集评估。效率问题促使发展了稳健的主动任务采样来训练适应性策略,其中使用了风险预测模型来替代策略评估。本工作将稳健的主动任务采样优化管道描述为马尔可夫决策过程,提出理论和实践见解,并在规避风险的情境中构成稳健性概念。重要的是,我们提出了一种易于实现的方法,称为后验和多样性协同任务采样(PDTS)。广泛的经验研究表明,PDTS 解锁了稳健的主动任务采样的潜力,显著提高了具有挑战性任务的零样本和少量样本适应的稳健性,并且在某些情境下甚至加速了学习过程。我们的项目网站为 https://thu-rllab.github.io/PDTS_project_page。
arXiv:2504.19136v1 宣称类型: cross
摘要:由于模态异质性和光谱互补性的未充分利用,合成孔径雷达(SAR)和RGB图像融合用于土地覆盖分类仍然具有挑战性。现有方法往往无法将共享结构特征与模态特定的辐射属性区分开来,导致特征冲突和信息丢失。为了解决这一问题,我们提出了一种频率感知框架相位-振幅解耦(PAD),该框架在傅里叶域中分离相位(模态共享)和振幅(模态特定)成分。具体而言,PAD 包含两个关键组件:1)相位频谱校正(PSC),通过卷积引导的比例缩放对跨模态相位特征进行对齐,以增强几何一致性;以及 2)振幅频谱融合(ASF),使用频率自适应多层感知机动态整合高频细节和低频结构。该方法利用了SAR对形态特征的敏感性和RGB的光谱丰富性。在WHU-OPT-SAR和DDHR-SK数据集上的广泛实验表明了其先进性能。我们的工作为遥感领域的物理感知多模态融合建立了新范式。代码将在 https://github.com/RanFeng2/PAD 释放。
arXiv:2504.19120v1 类别: cross
摘要:当前研究的目標是介绍一种适用于自动驾驶车辆领域的三方人类-AI协作框架。以往的分类(例如,SAE自动化等级)主要集中在基于车辆由谁控制来定义自动化级别。然而,在实际操作中,人类用户与AI如何在实时动态驾驶情境中协作仍然不清楚,尤其是在角色频繁转换的情况下。为了解决这一问题,本研究提出了一个三方人类-AI协作框架,包含三个AI角色(即顾问、协同驾驶者和守护者),这些角色能够根据人类的需求动态适应。总体而言,本研究为开发适应性和基于角色的人类-AI协作策略奠定了基础。
arXiv:2504.19099v1 交叉公告类型
摘要:大型语言模型(LLMs)在多种编程语言的调试中展现出了卓越的潜力。然而,LLMs 在 Verilog 调试中的应用仍然缺乏充分探索。在此,我们提出了 VeriDebug,一种结合对比表示和引导修正能力的自动化 Verilog 调试方法。不同于现有方法,VeriDebug 使用基于嵌入的技术以精确检索内部信息,随后进行错误修复。VeriDebug 通过共享参数空间统一了 Verilog 错误检测和修正。通过同时学习错误模式和修复方案,它利用对比嵌入和引导修正简化了调试流程。实验结果表明,VeriDebug 在增强 Verilog 调试方面具有有效性。我们的 VeriDebugLoc、Type 模型在错误修正方面的准确率(Acc1)达到了 64.7%,显著优于现有的开源 SOTA 11.3。这一性能不仅超过了开源替代方案,还超过了像 GPT-3.5-turbo 这样的更大封闭源模型(36.6),为传统的调试方法提供了一个更准确的选择。
arXiv:2504.19093v1 交叉类型
摘要:大型语言模型(LLMs)展示了令人瞩目的能力,尤其是最近在推理方面的进步,如o1和o3,这些进步正在推动人工智能的边界。尽管在数学和编码方面取得了显著成就,但在需要密码学专长的领域中,LLMs的推理能力仍然尚未得到充分探索。在本文中,我们介绍了CipherBank,这是一个全面的基准测试,旨在评估LLMs在密码学解密任务中的推理能力。CipherBank 包含2,358个精心设计的问题,涵盖了5个领域和14个子领域中的262个独特的明文,重点在于涉及加密的真实世界场景和隐私敏感场景。从密码学角度来看,CipherBank 包括3大类加密方法,涵盖了9种不同的算法,从古典密码学到定制的密码技术。我们评估了最先进的LLMs在CipherBank上的表现,例如GPT-4o、DeepSeek-V3,以及以推理为重点的最新模型如o1和DeepSeek-R1。我们的结果显示,不仅一般目的聊天LLMs与推理专门化LLMs之间的推理能力存在显著差距,而且目前推理专门化模型在应用到古典密码学解密任务时的表现也存在问题,突显了这些模型在理解并操作加密数据时面临的挑战。通过详细分析和错误调查,我们提供了几项关键观察,这些观察揭示了LLMs在密码学推理方面存在的局限性和潜在改进领域。这些发现强调了不断改进LLMs推理能力的必要性。
arXiv:2504.19080v1 类型: cross
摘要: 注意机制通过选择性聚焦增强了特征表示,显著提升了深度学习的效果。然而,现有方法往往分别建模通道重要性和空间显著性,忽视了它们的内在关联性,从而限制了其有效性。为了解决这一限制,我们提出了一种基于MindSpore框架的轻量级和模块化的多维互动注意力机制MIA-Mind。MIA-Mind通过统一的交叉注意力融合策略联合建模空间和通道特征,能够在最小的计算开销下实现细粒度的特征重新校准。我们在三个代表性数据集上进行了广泛的实验:在CIFAR-10上,MIA-Mind的准确率为82.9%;在ISBI2012上,其准确率为78.7%;在CIC-IDS2017上,其准确率为91.9%。这些结果验证了MIA-Mind在异构任务中的多样适用性、轻量级设计和泛化能力。未来的工作将探索将MIA-Mind扩展到大规模数据集、开发自适应注意力融合策略,并进行分布式部署,以进一步增强其可扩展性和鲁棒性。