arXiv 论文列表

作者: Shovon Sengupta, Bhanu Pratap, Amit Pawar

arXiv:2504.05350v1 宣告类型: cross 摘要：传统的线性菲利普斯曲线模型虽然在政策制定中广泛应用，但在存在结构性断裂和固有的非线性时，往往难以提供准确的预测。本文通过在新凯恩斯主义菲利普斯曲线框架中运用机器学习方法，来预测和解释印度——一个重要的新兴经济体——的核心通胀。我们的分析表明，基于机器学习的方法在预测准确性上显著优于标准的线性模型。此外，通过使用可解释的机器学习技术，我们揭示出印度的菲利普斯曲线关系是非线性的，受到关键变量之间阈值和交互效应的影响。核心通胀主要由通胀预期驱动，其次是以前的通胀和产出缺口，而除了降雨量外的供给冲击的影响仅起到边缘作用。这些发现强调了机器学习模型提高预测准确性和揭示通胀数据中复杂非线性动态的能力，并为政策制定者提供了有价值的见解。

发布时间: 4/9/2025

查看原文

Hyperflows：剪枝揭示了权重的重要性

作者: Eugen Barbulescu, Antonio Alexoaie

arXiv:2504.05349v1 类型: cross 摘要：网络剪枝被用于降低大型神经网络的推理延迟和能耗。然而，大多数现有方法由于其固有的相关性，难以准确评估单个权重的重要性，导致在极端稀疏水平下表现较差。我们介绍了Hyperflows，一种动态剪枝方法，通过观察移除权重时网络的梯度响应来估计每个权重的重要性。一个全局压力项持续驱动所有权重朝向剪枝，那些对准确率至关重要的权重将根据它们的流（在它们不存在时聚合的梯度信号）自动再生。我们探讨了最终稀疏度与压力之间的关系，推导出与神经网络缩放定律中发现的类似幂律方程。实验上，我们在CIFAR-10和CIFAR-100上使用ResNet-50和VGG-19展示了最先进的结果。

发布时间: 4/9/2025

查看原文

Thanos: 一种块级剪枝算法，用于高效的大型语言模型压缩

作者: Ivan Ilin, Peter Richtarik

arXiv:2504.05346v1 类别: cross 摘要：本文介绍了Thanos，这是一种新型的权重剪枝算法，旨在通过删除冗余权重同时保持准确性来减少大型语言模型（LLMs）的内存占用并提高计算效率。Thanos 引入了一种块级别的剪枝策略，该策略使用自适应掩码动态调整权重的重要性，从而支持灵活的稀疏模式和结构化格式，如优化硬件加速的 $n:m$ 稀疏模式。实验评估表明，Thanos 在结构化剪枝方面达到了最先进的性能，并且在无结构剪枝方面优于现有方法。通过提供一种高效且可适应的模型压缩方法，Thanos 为在资源受限环境中部署大型模型提供了一个实用的解决方案。

发布时间: 4/9/2025

查看原文

分歧的道路：分离同类相吸和异类相吸学习以增强图级表示

作者: Han Lei, Jiaxing Xu, Xia Dong, Yiping Ke

arXiv:2504.05344v1 Announce Type: cross 摘要：图卷积网络（GCNs）主要针对具有同质性的图进行设计，即相似的节点相连，但在异质性图上往往表现不佳。对于节点级任务，采用不同的方法分别学习同质性和异质性部分的策略已广泛讨论并证明了其理论和实验的有效性。然而，在图级任务中，对于这一领域的研究仍然非常稀少。为了弥合这一差距，我们的研究分析了节点类别ID可用的图，将同类别和跨类别部分分别作为同质性和异质性的体现。我们发现，尽管GCNs在提取类别内的信息方面表现出色，但它们经常从跨类别部分捕获噪声。因此，对同类别和跨类别元素采用不同的学习策略至关重要。为了解决这个问题，我们通过结合同类别卷积（IntraNet）和跨类别高通图卷积（InterNet）单独学习同类别和跨类别部分。IntraNet通过精细的图预处理步骤和一种新的基于类别的图读取函数得到支持。对于InterNet，我们利用高通滤波器放大节点差异，增强对高频分量细节的识别。所提出的方法DivGNN通过门控机制结合IntraNet和InterNet，在图级任务上显著提高了分类性能，优于传统的GNN基线。

发布时间: 4/9/2025

查看原文

AROMA：自主秩一矩阵适应

作者: Hao Nan Sheng, Zhi-yong Wang, Mingrui Yang, Hing Cheung So

arXiv:2504.05343v1 宣布类型: cross 摘要：随着大型语言模型的不断增大，参数高效微调变得越来越关键。虽然低秩适应（LoRA）通过低秩更新提供了解决方案，但其固定的秩分配可能会导致次优结果。自适应低秩适应（AdaLoRA）通过动态分配改进了这一点，但仍对初始和目标秩配置高度敏感。我们提出了AROMA框架，该框架通过迭代构建特定层的秩一组件，逐步减少到零，从而自动构建层特定更新。不同于现有方法采用秩减少机制，AROMA 引入了双环架构以促进秩增长。内环从每个秩一子空间中提取信息，而外环决定秩一子空间的数量，即最优秩。我们重置优化器状态以维持子空间的独立性。与LoRA和AdaLoRA相比，AROMA 参数数量显著减少，同时在自然语言理解和常识推理任务上表现出优越性能，为适应性参数高效微调提供了新的见解。代码可在 \href{https://github.com/ShuDun23/AROMA}{AROMA} 获取。

发布时间: 4/9/2025

查看原文

MASS: 通过自适应子空间选择的MoE融合

作者: Donato Crisostomi, Alessandro Zirilli, Antonio Andrea Gargiulo, Maria Sofia Bucarelli, Simone Scardapane, Fabrizio Silvestri, Iacopo Masi, Emanuele Rodol\`a

arXiv:2504.05342v1 声明类型：交叉摘要：模型合并最近已成为一种轻量级的替代解决方案，将多个细调模型合并为一个参数集，而不增加额外的训练开销。然而，现有的合并方法在任务上的准确度仍然不及单独细调的端点。我们提出了MASS（MoErging through Adaptive Subspace Selection），这是一种新的方法，通过统一多个细调模型来弥补这一差距，同时在各种任务上保留接近最先进的性能。立足于每个任务更新的低秩分解，MASS 只存储每个任务中最显著的奇异成分，并将它们合并到共享模型中。在推理时，一个非参数化的、无数据的路由器识别哪个子空间（或它们的组合）最好地解释输入的中间特征，并激活相应的特定任务块。该过程完全是无训练开销的，并且相对于单个预训练模型，仅引入两步推理开销和约2倍的存储因子，这与任务的数量无关。我们在CLIP基于的图像分类基准上对MASS进行了评估，使用ViT-B-16、ViT-B-32和ViT-L-14分别针对8、14和20个任务，确立了新的最先进的水平。最值得注意的是，MASS 恢复了单个细调模型平均准确度的高达98%，使其成为与存储成本相比非常实际的替代合集方案。

发布时间: 4/9/2025

查看原文

从机器学习视角综述脉冲神经网络的三因素学习：方法与趋势

作者: Szymon Mazurek, Jakub Caputa, Jan K. Argasi\'nski, Maciej Wielgosz

arXiv:2504.05341v1 交叉公告类型摘要：Spiking神经网络（SNNs）中的三因素学习规则已成为传统Hebbian学习和发放时间依赖可塑性（STDP）的关键扩展，通过引入神经调制信号来提高适应性和学习效率。这些机制增强了生物可行性，并促进了人工神经系统的改进信用分配。本文从机器学习的角度出发，概述了三因素学习的最新进展，讨论了其理论基础、算法实现以及与强化学习和神经形态计算的相关性。此外，我们探讨了跨学科方法、可扩展性挑战以及在机器人学、认知建模和AI系统中的潜在应用。最后，我们指出现代研究中的关键研究空白，并提出了弥合神经科学与人工智能之间差距的未来方向。

发布时间: 4/9/2025

查看原文

使用ECG-DiaNet多模态神经网络通过心电图和临床风险因素早期预测2型糖尿病 Mellitus 的改进方法

作者: Farida Mohsen, Zubair Shah

arXiv:2504.05338v1 类型：交叉摘要：2型糖尿病（T2DM）仍然是全球健康的一大挑战，强调了早期和准确风险预测的必要性。本研究介绍了ECG-DiaNet，这是一种多模态深度学习模型，将心电图（ECG）特征与临床风险因素（CRFs）相结合，以增强T2DM首发预测。使用卡塔尔生物银行（QBB）的数据，我们在一个开发队列（n=2043）上训练和验证了模型，并在有一个五年随访的纵向测试集（n=395）上进行了性能评估。ECG-DiaNet 比仅基于ECG和仅基于CRFs的模型表现更优，其AUROC（0.845 vs 0.8217）比仅基于CRFs的模型高，并具有统计显著性（DeLong p<0.001）。重新分类指标进一步证实了改进：净重新分类改进（NRI=0.0153）和整合辨别改进（IDI=0.0482）。对低风险、中风险和高风险组进行风险分层，ECG-DiaNet在高风险个体中实现了更优的阳性预测值（PPV）。该模型依赖于非侵入性和广泛可用的心电图信号，支持其在临床和社区健康设置中的可行性。通过结合心脏电生理学和系统风险概况，ECG-DiaNet应对了2型糖尿病的多因素性质，并支持精准预防。这些发现强调了多模态AI在推进2型糖尿病早期检测和预防策略方面的价值，特别是在未充分代表的中东人群中。

发布时间: 4/9/2025

查看原文

受限表达范围的关卡生成

作者: Mahsa Bazzaz, Seth Cooper

arXiv:2504.05334v1 类别: 跨领域摘要：表现性范围分析是一种基于可视化的技术，用于评估生成模型的性能，特别是在游戏关卡生成方面。它通常使用两个可量化的度量标准将生成的元素置于二维图表上，从而提供关于内容在限定度量空间内分布的见解。在本文中，我们将生成器的表现性范围作为可能创作的构想空间。受到质量多样性范式的启发，我们在该空间中探索并生成关卡。为此，我们使用了一种基于约束的生成器，该生成器系统地遍历并在此空间中生成关卡。为了训练基于约束的生成器，我们使用不同的地砖模式从初始示例关卡中学习。我们分析了不同模式如何影响表现性范围的探索过程。具体来说，我们根据时间、生成成功和失败样本的数量以及生成的关卡的整体趣味性，比较了探索过程。不同于依赖随机生成并希望获得表现性范围的良好覆盖率的典型质量多样性方法，这种方法系统地遍历网格，确保更好的覆盖率。这有助于创建独特且有趣的游戏关卡，同时也有助于更好地理解生成器的优点和局限性。

发布时间: 4/9/2025

查看原文

在什么情况下使用AI是理性的选择？关于AI部署决策中因果关系的重要性

作者: Paul Lehner, Elinor Yeo

arXiv:2504.05333v1 宣告类型: 交叉学科摘要: 决策将人工智能能力投入使用通常由反事实推理驱动，即使用人工智能做出的决策与未使用人工智能时本应做出的决策之间的比较。由于使用人工智能而归因于不良决策的反事实偏差，可能会对人工智能部署决策者产生不成比例的负面影响。而归因于人工智能使用的良好决策提供的收益可能仅限于更好决策的好处。本文探讨了如何将反事实结果纳入使用决策的期望效用评估之中。当显式包含反事实推理时，一些性质浮现出来。首先，在许多情况下，人工智能使用的期望效用对预期受益者为正，对相关方和部署决策者为强负。其次，高水平的互补性，即不同的人工智能与用户评估被有益地合并，经常导致相关方效用的重大负面影响。第三，用户与人工智能能能力互动方式的微小变化可能会显著影响相关方的效用。第四，诸如专家自信过度和事后偏差等认知偏差会加剧昂贵的反事实偏差的感知频率。本文提出的期望效用评估方法旨在帮助人工智能开发者和部署决策者更好地应对反事实推理的微妙但重要的影响，从而更好地确保有益的人工智能能力被使用。

发布时间: 4/9/2025

查看原文