arXiv 论文列表

作者: Robi Bhattacharjee, Karolin Frohnapfel, Ulrike von Luxburg

arXiv:2503.23111v1 宣告类型: cross 摘要: SHAP 是最受欢迎的局部特征归因方法之一。给定一个函数 \(f\) 和一个输入 \(x\)，它计算每个特征对 \(f(x)\) 的贡献。最近，SHAP 被越来越多地用于全局洞察：从业者平均每个数据点的绝对 SHAP 值来计算全局特征的重要性得分，然后使用这些得分来删除不重要特征。在这项工作中，我们通过询问一个小的聚合 SHAP 值是否一定意味着对应的特征不影响函数的功能，来调查这种做法的合理性。不幸的是，答案是否定的：即使第 \(i\) 个 SHAP 值在整个数据支持上都是 0，仍然存在函数显而易见地依赖于特征 \(i\)。问题在于计算 SHAP 值涉及在数据支持之外的点上评估 \(f\)，而这些点上的 \(f\) 可以被精心设计以掩盖其对特征 \(i\) 的依赖性。为了应对这一问题，我们提议在扩展支持上聚合 SHAP 值，该扩展支持是底层分布的边际的乘积。通过这一修改，我们表明一个小的聚合 SHAP 值意味着我们可以安全地删除对应的特征。然后我们将结果扩展到 KernelSHAP，这是实践中最流行的方法来近似 SHAP 值。我们表明，如果在扩展分布上计算 KernelSHAP，则一个小的聚合值可以证明特征的删除是合理的。这个结果与 KernelSHAP 是否准确近似真实 SHAP 值无关，使其成为第一个表征 KernelSHAP 算法本身的理论结果之一。我们的发现具有理论和实践意义。我们引入了 Shapley 代数，它提供了代数洞察，可能有助于对 SHAP 进行更深入的研究，同时我们表明随机重新排列数据矩阵的每一列可以基于聚合 SHAP 和 KernelSHAP 值安全地删除特征。

发布时间: 4/1/2025

查看原文

具有稳定状态反馈的递归神经网络快速训练

arXiv:2503.23104v1 Announce Type: 横跨领域摘要：循环神经网络（RNNs）最近在与Transformer相当的参数预算下展示了强大的性能和更快的推理速度。然而，沿时间反向传播（或BPTT）算法的递归梯度计算仍然是主要的计算瓶颈。在本文中，我们提出了一种新颖的方法，用固定梯度反馈机制替代BPTT，基于时间不变性的假设，提供了准确梯度传播的高效近似。我们的方法利用状态空间模型（SSM）原理定义了一个结构化的反馈矩阵，可以直接从未来时间步传播梯度。该公式规避了递归梯度反向传播的需求，显著降低了训练开销，同时保持了网络捕捉长期依赖性的能力。在语言建模基准上的实验展示了竞争力的困惑度分数，同时显著减少了训练成本。这些有希望的结果表明，设计类似SSM的反馈方法可以充分利用RNNs的效率优势，适用于许多实际应用。

发布时间: 4/1/2025

查看原文

RL2Grid：电力网格操作中的强化学习基准测试

作者: Enrico Marchesini, Benjamin Donnot, Constance Crozier, Ian Dytham, Christian Merz, Lars Schewe, Nico Westerbeck, Cathy Wu, Antoine Marot, Priya L. Donti

arXiv:2503.23101v1 通用类型: 交叉摘要: 强化学习(RL)可以通过提供适应性强且可扩展的控制器来转变电网运营，从而对于电网去碳化至关重要。然而，现有的方法在处理现实系统中出现的复杂动力学、 aleatoric 不确定性、长期目标以及严格的物理约束方面存在困难。本文介绍了一个由电力系统运营商与法国 RTE 公司共同设计的基准 RL2Grid，该基准旨在加速电网控制的进步并促进 RL 成熟度的提升。基于 RTE France 开发的电力仿真框架，RL2Grid 通过统一接口标准化任务、状态和动作空间以及奖励结构，从而进行有系统的评估和比较 RL 方法。此外，我们整合了根据运营商专业知识制定的实际控制启发式方法和安全约束，以确保 RL2Grid 能够满足电网运行的要求。我们在 RL2Grid 中表示的电网控制任务上对流行的 RL 基线进行了基准测试，建立了参考性能指标。我们的结果和讨论突出了电网对 RL 方法的挑战，强调了开发能够处理现实物理系统的新型算法的重要性。

发布时间: 4/1/2025

查看原文

UNITYAI-GUARD：低资源印度语言中的 toxicity 检测先锋

作者: Himanshu Beniwal, Reddybathuni Venkat, Rohit Kumar, Birudugadda Srivibhav, Daksh Jain, Pavan Doddi, Eshwar Dhande, Adithya Ananth, Kuldeep, Heer Kubadia, Pratham Sharda, Mayank Singh

arXiv:2503.23088v1 宣传类型:横跨领域摘要：本文介绍了UnityAI-Guard框架，该框架针对低资源印度语种的二元毒性分类。现有的系统主要针对高资源语言，而UnityAI-Guard通过为各种布拉谟克/印度语系开发最先进的模型来填补这一关键空白。我们的方法在七种语言上取得了令人印象深刻的平均F1分数84.23%，利用了88.8万训练实例和3.5万手动验证的测试实例的数据集。通过为语言多样的地区提供多语言内容审核的进步，UnityAI-Guard还提供了公共API访问以促进更广泛的采用和应用。

发布时间: 4/1/2025

查看原文

语言模型中的推理-记忆相互作用由单一方向介导

作者: Yihuai Hong, Dian Zhou, Meng Cao, Lei Yu, Zhijing Jin

arXiv:2503.23084v1 类型: cross 摘要：大规模语言模型（LLMs）在各种推理基准测试中表现出色，但之前的研究表明，它们有时在处理未见过的问题时可能会遇到困难，这可能是由于过度依赖记忆中的训练实例。然而，在文本生成过程中，LLMs 是如何在推理和记忆之间切换的具体条件仍然不清楚。在本文中，我们通过识别模型残差流中的一组线性特征，提供了LLMs 推理与记忆动态机制的机械性理解，这些特征管理推理与记忆召回之间的平衡。这些特征不仅能够区分推理任务与记忆密集型任务，还可以被操控以因果性地影响模型在推理任务上的表现。此外，我们展示了干预这些推理特征有助于模型在答案生成过程中更准确地激活最相关的解决问题能力。我们的发现为理解LLMs 中推理与记忆的内在机制提供了新的见解，并为开发更稳健和可解释的生成AI系统铺平了道路。

发布时间: 4/1/2025

查看原文

远程 sensing 视觉定位的高效适应

作者: Hasan Moughnieh, Mohamad Chalhoub, Hasan Nasrallah, Cristiano Nattero, Paolo Campanella, Ali J. Ghandour

arXiv:2503.23083v1 交叉公告类型摘要：基础模型已重塑了人工智能（AI），在多模态领域提供了令人瞩目的能力。这些模型通过丰富的上下文信息和详细的物体描述，在复杂航空和卫星图像中精确定位物体的能力对于遥感（RS）至关重要。这些模型可以通过视觉对接（VG）任务将文本描述与物体位置关联起来，但由于领域特定的挑战，它们直接应用于RS时会产生次优结果。为了解决这一问题，我们应用了参数高效微调（PEFT）技术，使这些模型适应RS特定的VG任务。具体而言，我们在Grounding DINO的不同模块中评估了LoRA的放置，并使用BitFit和适配器对在通用VG数据集上预训练的OFA基础模型进行了微调。该方法在性能上达到了或超过了当前最佳水平（SOTA），同时显著降低了计算成本。这项研究突显了PEFT技术在促进RS中高效和精确的多模态分析方面的潜力，提供了一种实用且成本效益高的全模型训练替代方案。

发布时间: 4/1/2025

查看原文

InkFM：全页在线手写笔记理解的基础模型

作者: Anastasiia Fadeeva, Vincent Coriou, Diego Antognini, Claudiu Musat, Andrii Maksai

arXiv:2503.23081v1 类型: cross 摘要: 平板和触控笔在记笔记方面越来越受欢迎。为了优化这一体验并确保流畅高效的流程，开发能够准确理解和解释数字手写笔记内容的方法至关重要。我们提出了一个名为InkFM的基础模型，用于分析整页的手写内容。该模型在多种任务上进行了训练，提供了一种独特的功能组合：识别28种不同的书写体中的文本、数学表达式识别以及将页面分割成独立元素，如文本和图画。我们的结果表明，这些任务可以在单一模型中有效地统一在一起，实现从一开始就超越公共基准（如docTR）的顶级文本行分割质量。在公共数据集上对基础模型进行精细或LoRA调优进一步提高了页面分割的质量，并在DeepWriting、CASIA、SCUT和Mathwriting数据集上实现了顶级的文本识别性能，在QuickDraw数据集上实现了顶级的手绘分类性能。InkFM的这种适应性为其应用于手写输入提供了强大的起点。

发布时间: 4/1/2025

查看原文

STSA：空间- temporal语义对齐在视觉配音中的应用

作者: Zijun Ding, Mingdie Xiong, Congcong Zhu, Jingrun Chen

arXiv:2503.23039v1 类别: cross 摘要: 现有的基于音频的视觉配音方法已经取得了很大的成功。尽管如此，我们观察到空间域和时间域之间的语义模糊性显著降低了动态面部合成的稳定性。我们认为，从空间域和时间域对齐语义特征是有希望的稳定面部运动的方法。为实现这一目标，我们提出了一个空间-时间语义对齐（STSA）方法，该方法引入了一种双路径对齐机制和可微语义表示。前者利用一个一致信息学习（CIL）模块，在多个尺度上最大化互信息，从而减少空间域和时间域之间的流形差异。后者利用概率热图作为容错的指导，以避免由轻微的语义抖动生成的合成面部的异常动态。广泛的实验结果证明了所提出的STSA的优越性，尤其是在图像质量和合成稳定性方面。预训练权重和推断代码可在https://github.com/SCAILab-USTC/STSA获取。

发布时间: 4/1/2025

查看原文

可重复性伴侣论文：使用户无法区分：推荐系统中按属性的遗忘

作者: Yuyuan Li, Junjie Fang, Chaochao Chen, Xiaolin Zheng, Yizhao Zhang, Zhongxuan Han

arXiv:2503.23032v1 类别: cross 摘要: 在本文中，我们重现了我们在之前发表于第31届ACM国际多媒体会议 proceedings 中的文章 "Making Users Indistinguishable: Attribute-wise Unlearning in Recommender Systems" 中呈现的实验结果。本文旨在验证我们提出的方法的有效性，并帮助他人重现我们的实验结果。我们提供了预处理数据集的详细描述、源代码结构、配置文件设置、实验环境以及重现的实验结果。

发布时间: 4/1/2025

查看原文

理解深度学习中的优化机制

作者: Binchuan Qi, Wei Gong, Li Li

arXiv:2503.23016v1 优化类型: 跨域摘要: 在本文中，我们从概率分布估计的角度探索了深度神经网络在监督分类中的优化机制。我们证明，在使用芬彻-杨损失时，尽管拟合误差相对于模型参数是非凸的，通过同时最小化梯度范数和结构误差，可以近似获得全局最优解。前者可以通过梯度下降算法来控制。对于后者，我们证明可以通过增加参数数量并确保参数独立性来管理，从而为诸如过参数化和随机初始化等机制提供了理论洞察。最终，通过实验证明了所提出方法的关键结论，展示了其实际有效性。

发布时间: 4/1/2025

查看原文