arXiv 论文列表

NeuroStrata：利用神经符号范式提高自主 CPS 的设计、可测试性和可验证性

作者: Xi Zheng, Ziyang Li, Ivan Ruchkin, Ruzica Piskac, Miroslav Pajic

arXiv:2502.12267v1 宣告类型：交叉摘要：自主 cyber-物理系统（CPSs）利用AI进行感知、规划和控制，但因固有的不确定性而面临信任和安全认证的挑战。神经符号范式用可解释的符号AI替代随机层，从而实现确定性。尽管前景看好，但仍存在多传感器融合、适应性和验证等方面的挑战。本文介绍了NeuroStrata，这是一种神经符号框架，旨在增强自主CPS的测试和验证。我们概述了其关键组成部分，展示了初步结果，并详细说明了未来计划。

发布时间: 2/19/2025

查看原文

识别最佳过渡法则

作者: Mehrasa Ahmadipour, \'elise Crepon, Aur\'elien Garivier

arXiv:2502.12227v1 类别: cross 摘要：受到马尔可夫决策过程中的递归学习的启发，本文研究了每项奖励来自具有已知支持的多项分布的赌博机问题中的最优臂识别。我们比较了包括显著的LUCB在使用和不使用这种知识的情况下达到的性能。在第一种情况下，我们使用经典的非参数方法来构建置信区间。在第二种情况下，当需要估计概率分布时，我们首先在每个维度上独立使用经典的偏差界（拉霍夫丁和伯恩斯坦），然后在联合概率向量上使用经验似然方法（EL-LUCB）。通过具有不同结构复杂度级别的场景仿真，展示了这些方法的有效性。

发布时间: 2/19/2025

查看原文

基于因果关系的可用地评方法以评估支持时间序列的基础模型的鲁棒性

作者: Kausik Lakkaraju, Rachneet Kaur, Parisa Zehtabi, Sunandita Patra, Siva Likitha Valluru, Zhen Zeng, Biplav Srivastava, Marco Valtorta

arXiv:2502.12226v1 类型: cross 摘要：基础模型（FMs）在金融等行业的时间序列预测中取得了改进，但它们对输入干扰的脆弱性可能会妨碍投资者和分析师等利益相关者的采用。为了解决这个问题，我们提出了一种因果性为基础的评级框架，以研究基础模型在时间序列（FMTS）中的鲁棒性，特别是在输入扰动方面的鲁棒性。我们通过一个广泛研究的问题——股票价格预测问题来评估我们的方法，这个问题是公开数据易于获得的，评价了六种最先进的（其中一些是多模态的）FMTS方法，这些方法涵盖了三个行业的六种代表性股票。我们框架提出的评级有效评估了FMTS的鲁棒性，同时也提供了模型选择和部署的实际见解。在我们的研究范围内，我们发现：（1）多模态FMTS在鲁棒性和准确性方面优于其单模态版本；（2）预训练于时间序列预测任务的FMTS相比泛化预训练的FMTS表现出更好的鲁棒性和预测准确性。此外，为了验证我们框架的适用性，我们进行了一项用户研究，展示了FMTS的预测错误以及我们计算出的评级。研究确认，我们的评级降低了用户在比较不同系统鲁棒性方面的难度。

发布时间: 2/19/2025

查看原文

主观逻辑编码

作者: Jake Vasilakes

arXiv:2502.12225v1 宣布类型: cross 摘要：许多现有的从带标签数据中学习的方法假设存在黄金标准标签。根据这些方法，注释者之间的分歧被视为需要去除的噪音，无论是通过改进注释指南、裁定标签，还是过滤标签。然而，在如情感分析或仇恨言论检测等更具主观性的任务中，分歧是自然存在的，很难完全消除。因此，一种新的从带标签数据中学习的方法，称为数据透视主义，寻求利用注释者之间的分歧来学习模型，这些模型忠于任务的固有不确定性，将注释视为注释者的观点，而不是黄金标准事实。尽管这种概念基础是存在的，但现有的数据透视主义方法仅将分歧作为注释不确定性来源的唯一途径。为了扩展数据透视主义的可能性，我们引入了主观逻辑编码（SLEs），这是一种灵活的框架，用于构建显式表示注释为注释者观点的分类目标。基于主观逻辑理论，SLEs将标签编码为狄利克雷分布，并提供了将注释者的信心、可靠性和分歧等各种类型的注释不确定性有原则地编码和聚合到目标中的方法。我们展示了SLEs是其他类型标签编码的推广，以及如何使用分布匹配目标估计预测SLEs的模型。

发布时间: 2/19/2025

查看原文

IMPACTX：通过适当预测正确解释来提高模型性能

作者: Andrea Apicella, Salvatore Giugliano, Francesco Isgr\`o, Roberto Prevete

arXiv:2502.12222v1 Announce Type: 交叉摘要：可解释的人工智能（XAI）研究主要集中在提供关于人工智能模型决策的解释，特别是深度学习（DL）模型。然而，人们越来越有兴趣利用XAI技术自动改进人工智能系统的性能本身。本文提出了IMPACTX，这是一种新颖的方法，利用XAI作为完全自动化的注意力机制，而无需外部知识或人工反馈。实验结果表明，IMPACTX在模型训练过程中通过基于XAI方法输出的注意力机制集成，相比单独的机器学习模型性能得到了提升。此外，IMPACTX直接提供了模型决策的适当特征归属图，在推断过程中无需依赖外部XAI方法。我们的提议使用三种广为人知的DL模型（EfficientNet-B2、MobileNet和LeNet-5）以及三种标准图像数据集（CIFAR-10、CIFAR-100和STL-10）进行了评估。结果显示，IMPACTX能够在所有评估的数据集上一致地提高所有检查的DL模型的性能，并直接为其响应提供适当的解释。

发布时间: 2/19/2025

查看原文

最优脑迭代合并：减轻LLM合并中的干扰

作者: Zhixiang Wang, Zhenyu Mao, Yixuan Qiao, Yunfang Wu, Biye Li

arXiv:2502.12217v1 类型: cross 摘要: 大型语言模型（LLMs）展现了令人印象深刻的性能，但其高昂的计算成本给定制化带来了挑战。模型合并提供了一种成本效益较高的替代方案，然而现有的方法由于参数间的相互干扰导致性能下降。在此工作中，我们提出了最优大脑迭代合并（OBIM），这是一种专为减轻模型内部和模型之间干扰而设计的新方法。OBIM包括两个关键组成部分：(1) 一个显著性度量机制，基于单个权重修改引起的损失变化来评估参数的重要性，通过保留高显著性参数来减少模型内部的干扰。(2) 一个互斥的迭代合并框架，该框架通过二进制掩码逐步集成模型，避免直接进行参数平均，从而减轻模型之间的干扰。我们通过在监督微调（SFT）模型和后预训练检查点上进行实验，验证了OBIM的有效性。结果表明，OBIM在合并技术方面显著优于现有的方法。总体而言，OBIM提供了一种有效且实际的解决方案，以提高LLM合并的性能。

发布时间: 2/19/2025

查看原文

Tactic: 适应性稀疏注意力与聚类及分布拟合用于长上下文大语言模型

作者: Kan Zhu, Tian Tang, Qinyu Xu, Yile Gu, Zhichen Zeng, Rohan Kadekodi, Liangyu Zhao, Ang Li, Arvind Krishnamurthy, Baris Kasikci

arXiv:2502.12216v1 交叉类型: cross 摘要：长上下文模型在许多应用中至关重要，但在解码过程中面临在加载大型KV缓存时的效率低下问题。之前的方法强制实施稀疏注意的固定标记预算，假设一定数量的标记可以近似完整注意。然而，这些方法忽视了注意在不同头、层和上下文中的重要性变化。为了应对这些限制，我们提出了一种名为Tactic的稀疏注意机制，该机制适应性地选择标记，根据累积注意力得分而非固定标记预算来动态选择标记。通过设置总注意力得分的目标比例，Tactic 确保标记选择能够自然地适应注意稀疏性的变化。为了有效地近似这种选择，Tactic 利用了基于聚类的排序和分布拟合方法，使其能够以最小的计算开销精确估计标记的重要性。实验结果表明，Tactic 在性能上优于现有稀疏注意算法，实现了更好的准确性和高达7.29倍的解码注意速度提升。这种改进相当于端到端推理速度提升了1.58倍，使得Tactic 成为了长上下文LLM推理在准确性敏感应用中实用而有效的解决方案。

发布时间: 2/19/2025

查看原文

重访o1-like模型的测试时缩放能力：它们真的具备测试时缩放能力吗？

作者: Zhiyuan Zeng, Qinyuan Cheng, Zhangyue Yin, Yunhua Zhou, Xipeng Qiu

arXiv:2502.12215v1 类型: 交叉摘要：随着大型语言模型（LLMs）在推断时的缩放能力的出现，以OpenAI的o1系列为例，推理能力得到了提升，通过在推断过程中扩展计算资源分配。虽然其继任者如QwQ、Deepseek-R1（R1）和LIMO复制了这些进步，但这些模型是否真正具备推断时的缩放能力仍然有待探索。这项研究发现，这些o1类似模型更长的推理链（CoT）并不一致地提高准确性；事实上，对于相同的问题，正确答案通常比错误答案更短。进一步的研究表明，这种现象与模型的自我修订能力密切相关——更长的推理链包含更多的自我修订，这通常会导致性能下降。然后，我们在QwQ、R1和LIMO上比较了串联和并行缩放策略，发现并行缩放在覆盖率和可扩展性方面表现更好。基于这些见解，我们提出了最短多数投票法，这是一种结合并行缩放策略和推理链长度特征的方法，相较于传统的多数投票方法，显著提高了模型的推断时的可扩展性。

发布时间: 2/19/2025

查看原文

零令牌驱动的深度思考在大语言模型中的应用：通过循环精炼释放现有参数的全部潜力

作者: Guanghao Li, Wenhao Jiang, Li Shen, Ming Tang, Chun Yuan

arXiv:2502.12214v1 资源限制型：交叉摘要：资源限制经常限制大型语言模型（LLMs）的参数量，妨碍了它们的性能。虽然现有的方法通过在固定预算下复用相同的参数集来利用参数共享，但此类方法通常要求每一层在预定的迭代次数中承担多个角色，这限制了效率和灵活性。在本工作中，我们提出了一种零令牌变换器（ZTT），其特点是解耦头部-尾部参数循环方法。我们将第一层（头部）和最后一层（尾部）从参数循环中分离出来，并且仅逐步精炼中间层。此外，我们引入了一种零令牌机制，这是一种内部架构组件而非输入令牌，用以指导层特定的计算。在每次循环中，模型从零令牌池中检索一个可训练的键值零令牌，并将其与常规令牌一起整合到注意力机制中。相应的注意力得分不仅反映了每层计算的重要性，还能够实现动态的早期退出而不牺牲模型的整体准确性。我们的方法在严格的参数预算下实现了更优异的性能，有效地通过早期退出减少了计算开销，并且可以轻松应用于现成预训练模型的微调，以提高效率和灵活性。

发布时间: 2/19/2025

查看原文

时空aware趋势-季节性分解网络用于交通流量预测

作者: Lingxiao Cao, Bin Wang, Guiyuan Jiang, Yanwei Yu, Junyu Dong

arXiv:2502.12213v1 宣告类型: cross 摘要: 交通预测对于优化出行安排和提高公众安全至关重要，但交通数据中的复杂空间和时间动态为准确预测带来了巨大挑战。在本文中，我们介绍了一种新型模型——时空意识趋势-季节性分解网络(STDN)。该模型首先构建一个动态图结构来表示交通流，并结合了新型时空嵌入，以共同捕捉全局交通动态。通过一个专门设计的趋势-季节性分解模块，进一步细化所学习的表示，该模块在图中的不同时间分离出每个交通节点的趋势周期性成分和季节性成分。这些成分随后通过编码器-解码器网络生成最终的预测结果。在真实世界交通数据集上进行的广泛实验表明，STDN在显著减少计算成本的情况下实现了优越的性能。此外，我们还发布了名为JiNan的新交通数据集，该数据集具有独特的城市内部动态，从而丰富了交通预测评估中的场景全面性。

发布时间: 2/19/2025

查看原文