arXiv 论文列表

作者: Hanzhe Liang, Aoran Wang, Jie Zhou, Xin Jin, Can Gao, Jinbao Wang

arXiv:2505.05901v2 宣告类型: replace-cross 摘要: 在本文中，我们探索了一种超越仅仅基于结构特征识别异常的新颖3D异常检测(AD)方法。我们的主要观点是，大多数异常源自源自内外部来源的不可预测缺陷力。为了应对这些异常，我们寻求可以协助纠正它们的相反力量。因此，我们提出了基于力学互补模型的3D-AD框架(MC4AD)，该框架为每个点生成内部和外部的纠正力。我们首先提出了一个多样化的异常生成(DA-Gen)模块，用于模拟各种类型的异常。接下来，我们介绍了纠正力预测网络(CFP-Net)，它使用互补表示进行点级分析，以模拟内部和外部纠正力的不同贡献。为了确保纠正力得到有效约束，我们开发了一个结合损失函数，其中包括一个新的对称损失和总体损失。值得注意的是，我们基于三元决策过程实现了层次质量控制(HQC)策略，并贡献了一个名为Anomaly-IntraVariance的数据集，该数据集整合了类内差异以评估我们的模型。结果表明，所提出的MC4AD通过理论和实验均证明了其有效性。实验结果表明，我们的方法在五个现有数据集以及提议的Anomaly-IntraVariance数据集上实现了九项最先进的性能，且参数最少、推断速度最快。源代码可在 https://github.com/hzzzzzhappy/MC4AD 获取。

发布时间: 5/16/2025

查看原文

通过激活子空间理解上下文学习中的加法运算

作者: Xinyan Hu, Kayo Yin, Michael I. Jordan, Jacob Steinhardt, Lijie Chen

arXiv:2505.05145v2 通知类型: 取代-交叉摘要：为了进行上下文学习，语言模型必须从单个少样本示例中提取信号，将这些信号综合为一个学习预测规则，然后将此规则应用于新的示例。现代Transformer模型的前向传播中是如何实现这一过程的？为了研究这一问题，我们考虑了一个结构化的少样本学习任务族，其中真实的预测规则是向输入加一个整数k。我们发现Llama-3-8B在不同范围的k值上都达到了高精度，并通过一种新的优化方法定位到其少样本能力仅局限于三个注意力头。我们进一步展示提取的信号位于一个六维子空间中，其中四个维度跟踪个位数，另外两个维度跟踪整体大小。最后，我们探讨这些头如何从单个少样本示例中提取信息，发现了早期示例中的错误被后续示例抑制的自我修正机制。我们的结果展示了在整个前向传播过程中跟踪低维子空间如何提供对精细计算结构的见解。

发布时间: 5/16/2025

查看原文

基于凸评分函数的风险敏感强化学习

作者: Shanyu Han, Yang Liu, Xiang Yu

arXiv:2505.04553v2 宣告类型: replace-cross 摘要：我们提出了一种针对广泛类别的风险目标的强化学习(RL)框架，这些风险目标由凸评分函数表征。这一类别涵盖了许多常见的风险衡量指标，如方差、预期短寸、熵风险价值以及均值-风险效用。为了解决时间不一致性问题，我们考虑了一个扩展的状态空间和一个辅助变量，并将问题重新表述为一个两状态优化问题。我们提出了一种定制化的Actor-Critic算法，并建立了某些理论近似保证。一个重要的理论贡献是，我们的结果不要求马尔科夫决策过程是连续的。此外，我们提出了一种受交替最小化算法启发的辅助变量采样方法，在某些条件下它是收敛的。我们在仿真实验中展示了该方法在统计套利交易中的有效性，证明了该算法的有效性。

发布时间: 5/16/2025

查看原文

智能增强对比张量分解：在低数据环境中增强多维时间序列分类

作者: Anushiya Arunan, Yan Qin, Xiaoli Li, Yuen Chau

arXiv:2505.03825v2 公告类型: replace-cross 摘要: 对于来自现实系统的时间序列进行多维分类需要在低训练数据可用性的实际挑战下学习复杂的细节特征，如跨维度依赖关系和类内变化。然而，标准深度学习（DL）在低数据环境下难以学习可推广的特征，因为模型容易过拟合。我们提出了一种兼具通用性和数据高效性的框架——Intelligently Augmented Contrastive Tensor Factorization（ITA-CTF），用于从多维时间序列中学习有效的表示。CTF模块学习时间序列的核心解释组件（如传感器因素、时间因素），以及这些组件的联合依赖关系。值得注意的是，与标准张量分解（TF）不同，CTF模块结合了一种新的对比损失优化方法，以在学习的表示中引入类似物学习和类别意识，从而提高分类性能。为了加强这种对比学习，前置的ITA模块生成有针对性但有信息量的增强，以突出原始数据中的类内模式，同时保留类别特有的属性。这通过动态采样“软”类原型来引导每个查询数据样本的变形来实现，从而生成一种结合“软”类原型和查询样本的智能模式混合的增强。这些增强使得CTF模块即使在原始训练数据有限的情况下也能识别复杂的类内变化，并寻求不变的类别特有属性以实现准确的分类性能。我们对五个不同的分类任务进行了全面评估。与标准张量分解和几种深度学习基准相比，我们的方法实现了高达18.7%的性能提升。

发布时间: 5/16/2025

查看原文

具有复杂群体动态的战略网络游戏中的人类行为建模

作者: Jonathan Skaggs, Jacob W. Crandall

arXiv:2505.03795v2 通知类型: 替换-交叉摘要：人类网络极大地影响了重要的社会结果，包括财富和健康不平等、贫困和霸凌。因此，了解人类网络对于学习如何促进有利的社会结果至关重要。为了更好地理解人类网络，我们比较了几种从少量数据集中学习一种称为初级中学游戏（JHG）的策略网络游戏中人类行为的模型方法。这些建模方法在假设方面有所不同（行为 vs. 社区感知行为）以及建模的时刻（均值 vs. 分布）。结果显示，表现最好的方法称为hCAB的方法，建模的是人类行为的分布而非均值，并假设人类使用的是社区感知行为而非匹配行为。当应用于小型社会（6-11个个体）时，hCAB模型 closely 镜像了人类群体的动态（有显著差异）。此外，在一项用户研究中，人类参与者无法区分单一的hCAB代理与其他人类，这表明hCAB模型也在这种战略网络游戏中产生了合理的（个体）人类行为。

发布时间: 5/16/2025

查看原文

GPU 性能移植需要自动调优

作者: Burkhard Ringlein, Thomas Parnell, Radu Stoica

arXiv:2505.03780v2 宣传类型: 替换-交叉摘要：随着大型语言模型（LLM）变得越来越复杂，实现最先进的性能需要在算法、软件和硬件之间紧密协同设计。当前对单一主导平台的依赖限制了便携性，导致供应商锁定，并提高了新的AI硬件的门槛。在本文中，我们提出了结合即时编译（JIT）与核参数自动调优的方法，以在无需修改代码的情况下实现具有先进性能的便携式LLM推理。我们聚焦于广泛使用的性能关键核——闪光注意机制，证明了这种方法在多个维度上产生了显著更多样化的代码，并且在某些情况下甚至比经过优化的硬件供应商实现高出230%的性能，同时将核代码大小减少了70倍，且消除了手工代码优化的需求。我们的结果突显了自动调优作为解锁跨GPU供应商模型便携性的一种有希望的途径。

发布时间: 5/16/2025

查看原文

RM-R1: 奖励建模作为一种推理

作者: Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji

arXiv:2505.02387v2 宣告类型: 替换交叉摘要: 通过强化学习（RL）将大型语言模型（LLMs）与人类偏好对齐时，奖励建模是至关重要的。为了提供准确的奖励信号，奖励模型（RM）应在分配评分或判断之前激发深度思考并进行可解释的推理。受到最近在推理密集型任务中长链式思考（CoT）进展的启发，我们假设并验证了将推理能力整合到奖励建模中显著增强了RM的可解释性和性能。为此，我们引入了一类新的生成型奖励模型——推理奖励模型（ReasRMs），将奖励建模视为一个推理任务。我们提出了一种面向推理的训练管道，并训练了一组ReasRMs，即RM-R1。RM-R1具有一种链式评价（CoR）机制——自动生成样本级别的聊天评价标准或数学/代码解决方案，并根据它们评估候选响应。RM-R1的训练包括两个关键阶段：(1) 提炼高质量的推理链，并(2) 使用可验证奖励进行强化学习。实验中，我们的模型在三个奖励模型基准测试中平均达到了最先进的性能，优于大型开源模型（例如INF-ORM-Llama3.1-70B）和专有模型（例如GPT-4o）多达4.9%。除最终性能外，我们进行了详尽的实证分析以理解成功训练ReasRM的关键因素。为了促进未来的研究，我们在https://github.com/RM-R1-UIUC/RM-R1 上发布了六种ReasRM模型及其代码和数据。

发布时间: 5/16/2025

查看原文

快速且稳健：后验和多样性协同的随机环境自适应决策制定的任务采样方法

作者: Yun Qu, Qi Cheems Wang, Yixiu Mao, Yiqin Lv, Xiangyang Ji

arXiv:2504.19139v3 宣告类型: 替换-交叉摘要：任务鲁棒自适应是顺序决策中长期追求的目标。一些规避风险的策略，如条件值在风险原则，被整合到领域随机化或元强化学习中，以优化难以优化的任务，在这种情况下需要昂贵的密集评估。效率问题促使了鲁棒主动任务采样的发展，用于训练适应性策略，其中使用风险预测模型来替代策略评估。本文将鲁棒主动任务采样的优化管道描述为马尔可夫决策过程，并提出了理论和实践见解，并在规避风险的情况下构建了鲁棒性概念。重要的是，我们提出了一种易于实现的方法，称为后验和多样性协同任务采样（PDTS），以适应快速和鲁棒的顺序决策。广泛的实验表明，PDTS 解锁了鲁棒主动任务采样的潜力，显著提高了挑战性任务中的零样本和少量样本适应鲁棒性，并且在某些情况下甚至加速了学习过程。我们的项目网站可访问 https://thu-rllab.github.io/PDTS_project_page。

发布时间: 5/16/2025

查看原文

基于归纳可信推论的数据驱动的大规模视觉-语言模型预测集校准

作者: Yuanchang Ye, Weiyan Wen

arXiv:2504.17671v3 宣告类型: replace-cross 摘要：本文通过分束一致预测（Split Conformal Prediction, SCP）框架解决大型视觉-语言模型（LVLMs）在视觉问答（VQA）任务中幻觉缓解的关键挑战。虽然LVLMs在多模态推理方面表现出色，但它们的输出往往伴随着高置信度的幻觉内容，这对安全性关键应用构成了风险。本文提出了一种模型无关的不确定性量化方法，结合动态阈值校准和跨模态一致性验证。通过将数据划分为校准集和测试集，框架计算非一致性得分，从而在用户定义的风险水平（$\alpha$）下构建具有统计保证的预测集。关键创新包括：（1）严格控制边际覆盖，确保经验误差率严格低于$\alpha$；（2）根据$\alpha$动态调整预测集大小，过滤低置信度输出；（3）消除先验分布假设，无需重新训练。在八种LVLMs基准测试（ScienceQA, MMMU）上进行的评估显示，SCP在所有$\alpha$值下强制执行理论保证。该框架在不同校准到测试分割比率下实现稳定性能，强调其在卫生保健、自主系统及其他安全性关键领域的实际部署的鲁棒性。本文填补了多模态AI系统中理论可靠性和实用可行性的差距，提供了一种可扩展的幻觉检测和不确定性感知决策解决方案。

发布时间: 5/16/2025

查看原文

WildFireCan-MMD：加拿大野火期间用户生成内容分类的数据集

作者: Braeden Sherritt, Isar Nejadgholi, Marzieh Amini

arXiv:2504.13231v2 通知类型: replace-cross 摘要：在野火期间快速获取信息至关重要，但传统数据源反应迟缓且成本高昂。社交媒体可以提供实时更新，但提取相关见解仍然是一项挑战。我们提出了WildFireCan-MMD，这是一个新的多模态数据集，包含最近加拿大野火的X条帖子，并在十二个关键主题上进行了标注。我们评估了视觉-语言模型和自定义训练的分类器，结果显示，尽管零样本提示可以快速部署，但在有标注数据的情况下，简单的训练模型仍然优于它们。我们表现最好的基于变压器的微调模型达到了83%的f分数，比GPT-4高出23%。作为用例，我们展示了该模型如何用于揭示野火期间的动向。我们的研究结果强调了定制数据集和任务特定训练的持久重要性。重要的是，这样的数据集应该是本地化的，因为灾害响应的需求在不同地区和背景下各不相同。

发布时间: 5/16/2025

查看原文