arXiv 论文列表

作者: Muzhi Dai, Chenxu Yang, Qingyi Si

arXiv:2505.07686v1 宣告类型: 新摘要: 随着测试时缩放逐渐成为大规模语言模型社区的热点研究领域，高级后训练方法越来越强调延长链式思维（CoT）生成长度，从而增强推理能力，接近Deepseek R1类推理模型。然而，最近的研究表明，即使是有Qwen3这样的推理模型也一致地表现出CoT生成中过度冗余的思虑问题。这个问题源于传统的结果奖励强化学习对中间推理步骤的系统性忽视。本文提出了序贯组衰减奖励策略优化（简称S-GRPO），这是一种新颖的强化学习方法，能够赋予模型确定推理步骤充分性的能力，从而触发CoT生成的早期退出。具体而言，与GRPO不同，后者在同一时间并行地选择多个可能的完成方式（平行组），我们选择生成一个CoT中的多个时间位置，允许模型在思考后生成答案（序贯组），分别执行。对于序贯组中的正确答案，我们根据位置赋予奖励，并且越后的奖励越低，从而强化模型在早期阶段以更早的思考退出来生成更高质量的答案的行为。实验评估表明该方法与最先进的推理模型（包括Qwen3和Deepseek蒸馏模型）兼容，通过在GSM8K、AIME 2024、AMC 2023、MATH-500和GPQA钻石基准上实现35.4%至61.1%的序列长度减少，同时在准确率上实现了0.72%至6.08%的提升。

发布时间: 5/13/2025

查看原文

YuLan-OneSim：面向下一代社会模拟器的大语言模型方法

作者: Lei Wang, Heyang Gao, Xiaohe Bo, Xu Chen, Ji-Rong Wen

arXiv:2505.07581v1 宣布类型: 新摘要: 利用基于大规模语言模型 (LLM) 的代理来模拟人类社会行为最近引起了广泛关注。在本文中，我们介绍了一种新型社会仿真器叫作 YuLan-OneSim。与之前的 works 相比，YuLan-OneSim 在五个关键方面独具特色：(1) 无代码场景构建：用户可以通过自然语言与我们的仿真器进行交互来简单描述和调整他们的仿真场景。所有仿真代码将自动生成，显著减少编程技能的需要。(2) 丰富的默认场景：我们实现了 50 个默认仿真场景，涵盖 8 个领域，包括经济学、社会学、政治学、心理学、组织学、人口统计学、法律学和交流学，从而为各种社会研究人员提供了更广泛的访问途径。(3) 可演化仿真：我们的仿真器能够接收外部反馈并自动微调基础的大规模语言模型，显著提高了仿真质量。(4) 大规模仿真：通过开发一个完全响应型代理框架和分布式仿真架构，我们的仿真器可以处理多达 100,000 个代理，确保仿真结果更加稳定可靠。(5) AI 社会研究人员：利用上述功能，我们开发了一个 AI 社会研究人员。用户只需要提出研究主题，AI 研究人员将自动分析输入内容，构建仿真环境，总结结果，生成技术报告，审查并完善报告，从而完成社会科学研究的闭环。为了展示 YuLan-OneSim 的优势，我们进行了实验来评估自动生成场景的质量、仿真的可靠性和效率以及 AI 社会研究人员的表现。

发布时间: 5/13/2025

查看原文

QuantX: 一种面向硬件的生成AI工作负载量化框架

作者: Khurram Mazher, Saad Bin Nasir

arXiv:2505.07531v1 宣告类型: 新摘要: 我们介绍QuantX: 一个针对大规模语言模型(LLM)和视觉语言模型(VLM)量化定制的工具包。它能够将模型量化至3位分辨率，同时保持最小的性能损失。QuantX中的量化策略考虑了硬件特定的约束，以实现有效的反量化，在推理过程中确保在运行时速度、内存需求和模型准确性之间灵活的权衡。我们的结果显示，QuantX在LLaVa-v1.6模型量化至3位时，多次针对最终用户的任务实现了与未量化模型性能相差6%之内的效果，并优于最近公布的最先进的量化技术。本文提供了关于LLM量化过程的见解，这些见解激励了QuantX中纳入的各类方法和选项。

发布时间: 5/13/2025

查看原文

HALO：基于半衰期的过时事实过滤-temporal知识图谱

作者: Feng Ding, Tingting Wang, Yupeng Gao, Shuo Yu, Jing Ren, Feng Xia

arXiv:2505.07509v1 通告类型: 新摘要: 时间知识图谱(TKG)中的过时事实源自事实的过期，这会负面影响TKG上的推理性能。然而，现有的推理方法主要关注历史事实的积极影响，忽视了过时事实的不利影响。此外，使用这些过时事实进行训练还会增加额外的计算成本。为了应对这些挑战，我们提出了一个名为HALO的过时事实过滤框架，该框架通过探索半衰期理论来定量历史事实的时间有效性，从而在TKG中过滤过时事实。HALO由三个模块组成：时间事实注意力模块、动态关系感知编码模块和过时事实过滤模块。首先，时间事实注意力模块捕捉历史事实随时间的演变，以识别相关事实。其次，动态关系感知编码模块旨在高效预测每个事实的半衰期。最后，我们基于半衰期理论构建了一个时间衰减函数，以定量衡量事实的时间有效性并过滤过时事实。实验结果显示，HALO在三个公开数据集上优于最先进的TKG推理方法，证明了其在检测和过滤过时事实方面的有效性（代码可在https://github.com/yushuowiki/K-Half/tree/main 获取）。

发布时间: 5/13/2025

查看原文

Web-Bench：基于网页标准和框架的LLM代码基准测试

作者: Kai Xu, YiWei Mao, XinYi Guan, ZiLong Feng

arXiv:2505.07473v1 代码助手类型：新摘要：大型语言模型（LLMs）在编码领域的应用正在迅速发展：从代码助手到自主编码代理，再到通过自然语言生成完整的项目。早期的LLM代码基准主要关注代码生成的准确性，但这些基准逐渐变得饱和。基准饱和削弱了其对LLMs的指导作用。例如，HumanEval Pass@1 达到了99.4%，MBPP 达到了94.2%。在各种应对基准饱和的尝试中，基于软件工程的方法脱颖而出，但现有软件工程基准的饱和度正迅速增加。为了解决这个问题，我们提出了一种新的基准——Web-Bench，包含50个项目，每个项目包含20个具有顺序依赖性的任务。任务按顺序实现项目功能，模拟真实世界的代码开发工作流。在设计Web-Bench时，我们旨在涵盖Web开发的基础要素：Web标准和Web框架。鉴于这些项目规模和复杂性较高，它们是由拥有5到10年经验的工程师设计的，每个项目都构成了一个显著的挑战。平均而言，一个项目需要一位高级工程师花费4到8小时才能完成。在我们提供的基准代理（Web-Agent）上，当前最先进模型（Claude 3.7 Sonnet）仅达到了25.1%的Pass@1，显著低于SWE-Bench的Verified（65.4%）和Full（33.8%）得分。最后，我们讨论了在任何开发领域，标准代表了基础的知识，框架则代表了效率工具，LLMs需要针对这些领域进行优化。

发布时间: 5/13/2025

查看原文

大型和小型语言模型之间协作机制的研究综述

作者: Yi Chen, JiaHao Zhao, HaoHao Han

arXiv:2505.07460v1 宣布类型: 新摘要: 大型语言模型（LLMs）提供了强大的人工智能能力，但由于高资源成本和延迟问题的部署挑战，而小型语言模型（SLMs）则以效率和部署性为代价，牺牲了性能。LLM和SLM之间的合作作为一种关键的范式，能够协同平衡这些权衡，使高级人工智能应用成为可能，特别适用于资源受限的边缘设备。本文综述了LLM-SLM合作，详细介绍了各种交互机制（流水线、路由、辅助、知识蒸馏、融合）、关键使能技术以及由设备需求驱动的多样化应用场景，如低延迟、隐私、个性化和离线操作。尽管强调了创建更高效、可适应和可访问的人工智能的巨大潜力，但我们也讨论了持续存在的挑战，包括系统开销、跨模型一致性、稳健的任务分配、评估复杂性以及安全/隐私问题。未来方向包括更智能的自适应框架、更深的模型融合，并扩展到多模态和具有体现的人工智能，将LLM-SLM合作定位为下一代实用和普及的人工智能的关键驱动力。

发布时间: 5/13/2025

查看原文

LLM们真的能够很好地推理表格数据吗？

作者: Cornelius Wolff, Madelon Hulsebos

arXiv:2505.07453v1 宣告类型: 新摘要: 大型语言模型（LLMs）在自然语言任务中表现出色，但对其在表格数据上的推理能力了解较少。先前的分析设计的评估策略未能很好地反映LLMs在表格查询上的实际表现。此外，我们对LLMs在表格输入真实变化方面的鲁棒性了解有限。因此，我们提出：通用的LLMs是否真的能在表格数据上进行推理？我们将关注两个问题：1）通用的LLMs在表格推理能力上是否对现实世界的表格输入特征具有鲁棒性，以及2）我们如何能够现实地评估LLMs在分析性表格查询上的表现？基于最近的表格推理基准测试，我们首先揭示了其多项选择提示评估策略的不足，以及常用的大段自由文本指标，如SacreBleu和BERT-score。我们表明，将LLM作为评判者的过程能提供更可靠的表现洞察，并揭示了LLMs在表格推理方面的显著缺陷。然后，我们扩展了反映实践中三种常见特征的表格输入：1）缺失值，2）重复实体，3）结构变化。实验表明，通用的LLMs在这些变化面前的推理能力受到影响，突出了改进其对真实表格输入的鲁棒性的必要性。

发布时间: 5/13/2025

查看原文

基于变压器的AI驱动海洋监测：一份综合评论

作者: Zhiye Xie, Enmei Tu, Xianping Fu, Guoliang Yuan, Yi Han

arXiv:2505.07374v1 宣告类型: 新摘要: 随着全球航运在安全、效率和可持续性方面的需求不断提高，自动识别系统(AIS)数据在海运监控中发挥着越来越重要的作用。AIS数据包含船舶的空间-时间变化模式，这些模式在海洋领域有重要的研究价值。然而，由于其庞大的规模，AIS数据的全部潜力长期以来一直未被充分利用。凭借其强大的序列建模能力，尤其是能够捕捉长期依赖关系和复杂的时空动态，变压器模型已成为处理AIS数据的有效工具。因此，本文综述了基于变压器的AIS数据驱动的海运监控研究，提供了当前变压器模型在海洋领域应用的全面概述。重点在于基于变压器的轨迹预测方法、行为检测和预测技术。此外，本文从已审论文中收集和整理了公共AIS数据集，进行了数据筛选、清洗和统计分析。统计结果揭示了不同类型船舶的操作特性，为海运监控任务的进一步研究提供了数据支持。最后，我们提出了对未来研究有价值的建议，确定了两个有前途的研究方向。数据集可在https://github.com/eyesofworld/Maritime-Monitoring获得。

发布时间: 5/13/2025

查看原文

FedIFL：一种针对具有不一致故障模式的驱动系统跨域诊断框架

作者: Zexiao Wang, Yankai Wang, Xiaoqiang Liao, Xinguo Ming, Weiming Shen

arXiv:2505.07315v1 宣告类型: 新摘要: 由于工业数据稀缺，个体设备用户，尤其是初创企业，在独立训练全面故障诊断模型时面临困难；联邦学习使得在保持数据隐私的前提下进行合作训练成为可能，因此它是一个理想的选择。然而，工作条件的多样性导致了故障模式的差异，从而在不同客户端之间产生了不一致的标签空间。在联邦诊断场景中，标签空间的不一致性导致本地模型专注于各自的故障模式，并导致来自不同客户端的本地模型将不同的故障模式映射到相似的特征表示，从而削弱了聚合的全局模型的一般性。为了解决这一问题，本文提出了一种称为 FedIFL（联邦不变特征学习）的联邦跨域诊断框架。在客户端内训练中，原型对比学习减轻了客户端内域移位，随后，特征生成确保本地模型可以以隐私友好的方式访问其他客户端的分布。此外，在客户端间训练中，引入了一种特征去纠缠机制以减轻客户端间域移位。具体而言，设计了一种实例级别联邦实例一致性损失，以确保不同客户端的不变特征在实例级别的一致性，进一步构建了联邦实例个性化损失和正交损失以区分特定的特征和不变特征。最终，聚合模型在全局标签空间中实现了良好的泛化，使得在不同标签空间的目标客户端的电机驱动系统（MDSs）中实现准确的故障诊断成为可能。在实际MDS上的实验验证了FedIFL在具有不一致故障模式的联邦跨域诊断中的有效性和优越性。

发布时间: 5/13/2025

查看原文

可解释的水资源分配网络事件诊断

作者: Andr\'e Artelt, Stelios G. Vrachimis, Demetrios G. Eliades, Ulrike Kuhl, Barbara Hammer, Marios M. Polycarpou

arXiv:2505.07299v1 事件诊断类型: 新型摘要: 信息技术和通信技术在水系统设计、监控和控制中的日益普及使得使用算法检测和识别未预见事件（如泄漏或水污染）成为可能，借助传感器测量数据。然而，基于数据的方法并不总能给出准确的结果，往往也不被操作员信任，他们可能更倾向于依赖自己的工程判断和经验来处理这类事件。在这项工作中，我们提出了一种可解释的事件诊断框架——一种帮助操作员将算法事件诊断方法的结果与其自身直觉和经验联系起来的方法。这通过提供对立的（即，反事实的）解释来实现，这些解释旨在通过改善操作员对算法内部工作原理的理解，使他们能够在结合其个人经验的同时做出更加明智的决策。具体而言，我们提出了一种反事实事件指纹，这是一种表示当前事件诊断与其最近的替代解释之间差异的表示，可以通过图形方式呈现。所提出的方法在使用L-Town基准进行的应用和评估表明了其有效性。

发布时间: 5/13/2025

查看原文