LLM2D

arXiv 论文列表

作者: Gregor Baer, Isel Grau, Chao Zhang, Pieter Van Gorp
arXiv:2502.17022v2 宣告类型: replace-cross 摘要:随着机器学习模型在时间序列应用中的日益普及,可解释的人工智能(XAI)方法对于理解它们的预测变得至关重要。在XAI领域,特征归因方法旨在识别哪些输入特征对模型预测的贡献最大,通常依赖于扰动基度量进行评估。通过在多个数据集、模型架构和扰动策略上的系统实证分析,我们揭示了这些度量中存在被忽视的类依赖效应:它们在不同类别的效果上表现出差异性,对某些类别的效果很强,而对其他类别则较为敏感。特别是,我们发现最有效的扰动策略通常显示出最明显的类差异。我们的分析表明,这些效应来源于分类器学习到的偏见,这意味着扰动基度量可能反映特定的模型行为,而不是固有的归因质量。我们提出了一种评估框架,包含一个类意识惩罚项,以帮助评估和抵消这些效果,特别是在不平衡类数据集的评估中具有重要价值。尽管我们的分析集中在时间序列分类上,但这些类依赖效应可能扩展到其他常见使用扰动基度量评估的数据结构领域。
发布时间: 4/2/2025
查看原文
作者: Xianjun Yang, Shaoliang Nie, Lijuan Liu, Suchin Gururangan, Ujjwal Karn, Rui Hou, Madian Khabsa, Yuning Mao
arXiv:2502.14050v2 宣传类型: 替换-交叉 摘要:指令调优数据由于数据收集量大和快速的模型迭代,往往已经数量饱和,使得数据选择变得重要但尚未得到充分利用。现有的以质量为导向的数据选择方法,如 LIMA(NeurIPS 2023,[zhou2024lima])和 AlpaGasus(ICLR 2024,[chenalpagasus]),通常忽略了数据多样性和复杂性的同等重要性。在这项工作中,我们旨在设计一种兼顾多样性的数据选择策略,并创造性地提出使用稀疏自编码器(SAEs)来应对数据多样性度量的挑战。此外,SAEs 还可以提供更多有关模型行为的可解释性,比如选择最长响应的效果令人惊讶(ICML 2024,[zhaolong])。通过有效的数据选择,我们实验性地证明,使用我们选择的数据训练的模型在模型能力方面可以超越其他方法,降低训练成本,并且有可能更好地控制模型行为。我们证明了 SAEs 可以作为一种良好的多样性度量替代方案,并设计我们的方法以适用于潜在的工业大规模剪枝,并且我们将发布我们的训练好的 SAEs 供更广泛的社区使用。
发布时间: 4/2/2025
查看原文
作者: Kausik Lakkaraju, Rachneet Kaur, Parisa Zehtabi, Sunandita Patra, Siva Likitha Valluru, Zhen Zeng, Biplav Srivastava, Marco Valtorta
arXiv:2502.12226v2 公告类型: 替换-交叉 摘要:基础模型(FMs)已经在诸如金融等多个领域改进了时间序列预测,但它们对输入干扰的脆弱性可能妨碍其在投资者和分析师等利益相关者中的采用。为解决这一问题,我们提出了一种因果性指导的评估框架,以研究基础模型在时间序列(FMTS)中的鲁棒性,特别是在面对输入扰动时。我们将我们的方法应用到股票价格预测问题上,这是已广泛研究并有易获取公开数据的问题,我们评估了六个最先进的(包括多模态模型)FMTS在三个行业中六家著名公司的表现。我们框架提出的评分有效地评估了FMTS的鲁棒性,并且也提供了模型选择和部署的可操作见解。在我们研究的范围内,我们发现: (1) 多模态FMTS在鲁棒性和准确性方面优于其单模态版本; (2) 预训练于时间序列预测任务的FMTS在鲁棒性和预测准确性方面优于在多种环境下预训练的一般目的FMTS。 为进一步验证我们框架的可用性,我们进行了用户研究,展示了FMTS的预测误差以及我们计算出的评分。研究证实,我们的评分减少了用户比较不同系统鲁棒性的难度。
发布时间: 4/2/2025
查看原文
arXiv:2502.11381v2 通知类型: replace-cross 摘要: 无人机视角地理定位(UVGL)的目标是通过检索与GPS标记的地对地卫星图像最相关联的图像来实现无人机的准确定位。然而,现有的方法严重依赖预先配对的无人机-卫星图像进行监督学习。这种依赖性不仅导致了高注释成本,还严重限制了UVGL开放场景下的可扩展性和实际部署。为了解决这些局限性,我们提出了一种端到端的自监督UVGL方法。我们的方法利用一个浅层骨干网络提取初始特征,采用聚类生成伪标签,并采用双路径对比学习架构学习有区别的视角内表示。此外,我们的方法包括两个核心模块:动态层次记忆学习模块和信息一致性演变学习模块。动态层次记忆学习模块结合短时和长时记忆,增强视角内特征的一致性和区辨性。与此同时,信息一致性演变学习模块利用以邻近驱动的动力学约束机制系统地捕获跨视角语义关联,从而改善跨视角特征对齐。为了进一步稳定和加强自监督训练过程,我们引入了一种伪标签增强策略,以提高伪监督的质量。最终,我们的方法在自监督设置下构建了一个统一的跨视角特征表示空间。在三个公开基准数据集上的广泛实验表明,所提出的方法在所有自监督方法中表现最优,并且甚至超过了几个最先进的监督方法。我们的代码可在https://github.com/ISChenawei/DMNIL获取。
发布时间: 4/2/2025
查看原文
arXiv:2502.03717v2 宣告类型:replace-cross 摘要:具有表现力的机器人行为对于机器人在社会环境中的广泛接受至关重要。近期在学习式 legged 运动控制器方面的进展使机器人行为更加动态和多样化。然而,确定与不同用户在不同场景下的互动的最佳行为仍然是一项挑战。当前的方法要么依赖于自然语言输入,这种方式高效但分辨率较低,要么从人类偏好中学习,虽然分辨率较高,但样本效率较低。本文介绍了一种新方法,该方法利用预训练的大型语言模型(LLM)生成先验知识,同时结合基于偏好的学习精度。我们的方法称为语言引导的偏好学习(LGPL),使用 LLM 生成初始行为样本,然后通过基于偏好的反馈进行细化,学习与人类期望高度一致的行为。我们的核心见解是 LLM 可以引导偏好学习的采样过程,从而显著提高样本效率。我们展示了LGPL 可以通过最少四次查询快速学习准确且具有表现力的行为,且在这方面的表现优于完全基于语言参数化模型和传统偏好学习方法。视频网站:https://lgpl-gaits.github.io/
发布时间: 4/2/2025
查看原文
arXiv:2502.01684v3 通知类型: 替换交叉 摘要:图表示学习已成为节点分类和链接预测等任务的核心,然而现有的自监督学习(SSL)方法面临着计算效率低下、依赖对比目标以及表示崩溃的挑战。现有方法通常依赖特征重构、负采样或复杂的解码器,这引入了训练开销并妨碍了泛化能力。此外,现有的解决此类限制的技术未能考虑节点嵌入对未标记节点特定预测的贡献。为了应对这些挑战,我们提出了一种新颖的联合嵌入预测框架,用于图SSL,该框架消除了对比目标和负采样,同时保留了语义和结构信息。此外,我们引入了一种语义感知的目标项,该项结合了来自高斯混合模型(GMM)的伪标签,通过评估潜在特征贡献来增强节点的可分辨性。广泛的实验证明,我们的框架在基准上的性能优于现有的最先进的图SSL方法,且在没有对比损失或复杂解码器的情况下实现了更优的表现。关键创新包括(1)一种非对比、视图不变的联合嵌入预测架构,(2)利用子图之间的单一上下文与多个目标关系,以及(3)基于GMM的伪标签评分以捕捉语义贡献。本项工作通过提供一种计算效率高、抗表示崩溃的范式,促进了图SSL,该范式可以融合空间和语义图特征以供下游任务使用。我们的论文代码可以在 https://github.com/Deceptrax123/JPEB-GSSL找到。
发布时间: 4/2/2025
查看原文
作者: Lehao Lin, Ke Wang, Maha Abdallah, Wei Cai
arXiv:2501.18565v3 安全类型:替换-交叉 摘要:近年来,特别是多模态大规模语言模型(MLLMs)的人工智能(AI)快速发展,使AI能够理解和处理文本、图像、视频和其他多媒体数据,从而根据人类提供的提示执行各种任务。然而,借助AI的智能,聊天机器人能够绕过大多数现有的CAPTCHA系统,这为网络应用带来了重大的安全威胁。因此,设计新的CAPTCHA机制迫在眉睫。我们注意到,人类对视频中的边界转换和突变极为敏感,而当前的AI系统仍难以有效理解和应对这些情况。基于这一观察,我们设计并实现了BounTCHA,这是一种利用人类感知视频过渡和中断边界能力的CAPTCHA机制。通过利用生成AI扩展原始视频并与提示相结合的能力,我们引入了意想不到的转折和变化,以生成用于CAPTCHA目的的指导短视频。我们开发了一个原型,并进行了实验来收集人类在边界识别上的时间偏见数据。这些数据为区分人类用户和机器人提供了一个基础。此外,我们对BounTCHA的详细安全性进行了分析,证明其对各种攻击具有抵御能力。我们希望BounTCHA能够作为一项有效的防御措施,保护AI驱动时代数百万的网络应用。
发布时间: 4/2/2025
查看原文
作者: Qiuhao Zeng, Jerry Huang, Peng Lu, Gezheng Xu, Boxing Chen, Charles Ling, Boyu Wang
arXiv:2501.14577v3 宣告类型: replace-cross 摘要:近年来,Transformer 成为序列建模架构中的一个基础构建块。然而,其核心在于自注意力机制,该机制的记忆消耗和计算成本随着序列长度 \(N\) 的平方增长,使得对于长序列而言变得极其昂贵。一种有前景的方法是 top-\(k\) 注意力,它只选择最相关的 \(k\) 个标记,并在显著降低空间和计算需求的同时,实现与普通的自注意力相当的性能。然而,因果掩码要求当前查询标记只能关注过去的标记,这阻止了现有的 top-\(k\) 注意力方法并行搜索最相关的标记,从而限制了训练效率。在这项工作中,我们提出了 ZETA,利用 \textbf{Z}-Order 曲线进行 \textbf{E}fficient \textbf{T}op-\(k\) \textbf{A}ttention,以实现对整个序列的过去标记的并行查询。虽然空间和时间复杂度为 \(\mathcal{O}(N \log N)\)。我们首先从理论上表明,键和查询维度的选择涉及到维度灾难和投影后相对距离保持之间的权衡。鉴于此见解,我们提议减少键和查询的维度,而与值的维度无关,同时利用 \(\textbf{Z}\)-Order 曲线将低维度的键和查询映射到 \(\emph{一}\) 维空间,这允许并行排序,从而大大提高了 top-\(k\) 标记选择的效率。实验结果表明,ZETA 在合成的 \textsc{Multi-Query Associative Recall} 任务中与标准注意力匹配,在 \textsc{Long Range Arena} 和 \textsc{WikiText-103} 语言建模任务中也优于注意力及其变体。
发布时间: 4/2/2025
查看原文
arXiv:2501.13727v2 宣告类型: replace-cross 摘要:安全性和可扩展性是实用多智能体系统(MAS)面临的两个关键挑战。然而,现有仅依赖于奖励塑形的多智能体强化学习(MARL)算法在确保安全方面效果不佳,而且由于固定大小的网络输出,其可扩展性也受到相当大的限制。为了解决这些问题,我们提出了一种名为可扩展安全MARL(SS-MARL)的新框架,以增强MARL方法的安全性和可扩展性。利用MAS固有的图结构,我们设计了一种多层次的消息传递网络来聚合不同大小的局部观测和通信。此外,我们开发了一种在局部观测设置下的约束联合策略优化方法,以提高安全性。仿真实验表明,SS-MARL 在最优性和安全性之间实现了比基线方法更好的权衡,并且在大量智能体的场景中,其可扩展性显著优于最新方法。
发布时间: 4/2/2025
查看原文
作者: Mars Liyao Gao, Jan P. Williams, J. Nathan Kutz
arXiv:2501.13329v2 通告类型: replace-cross 摘要: Modeling real-world spatio-temporal data是由于其固有的高维度、测量噪声、部分观测以及通常昂贵的数据采集程序而极其困难。在本文中,我们提出了Sparse Identification of Nonlinear Dynamics with SHallow REcurrent Decoder networks (SINDy-SHRED),一种用于同时解决传感和模型识别问题的方法,具有简单的实现、高效的计算和稳健的性能。SINDy-SHRED 使用 Gated Recurrent Units 来建模稀疏传感器测量的时间序列,并使用浅层解码网络从潜在状态空间重构完整的时空场。我们的算法引入了一种基于 SINDy 的正则化方法,只要投影保持在集合内,潜在空间会逐渐收敛到 SINDy 类功能。通过将 SINDy 限制为线性模型,可以生成一个 Koopman-SHRED 模型。SINDy-SHRED 通过学习一个符号且可解释的生成模型来表征复杂时空动态的简约且低维度的潜在空间,发现即便是对于已知物理系统的新物理模型,实现可证明稳健的收敛,观测到全局凸的损失景观,并且在较少的模型参数下实现更高的准确性、数据效率和训练时间。我们在偏微分方程数据(如湍流流动)、海面温度的现实传感器测量以及直接视频数据上进行了系统性的实验研究。可解释的 SINDy 和 Koopman 潜在状态动力学模型能够实现稳定的长期视频预测,并在准确性、训练时间和数据需求方面超过了当前所有基准深度学习模型,包括卷积 LSTM、PredRNN、ResNet 和 SimVP。
发布时间: 4/2/2025
查看原文