arXiv:2502.11089v1 交叉类型: cross
摘要: 长上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本提出了显著的计算挑战。稀疏注意力提供了一种有希望的方向,可以在保持模型能力的同时提高效率。我们介绍了Nativa School(Native Sparse Attention)机制,该机制结合了算法创新与硬件对齐的优化,以实现高效的长上下文建模。Nativa School采用动态分层稀疏策略,结合粗粒度的TOKEN压缩与细粒度的TOKEN选择,以保留全局上下文意识和局部精度。我们的方法通过两项关键创新推进了稀疏注意力设计:(1)通过算术强度平衡的算法设计实现显著的加速,并对现代硬件进行了实施优化。(2)实现端到端训练,减少预训练计算量而不牺牲模型性能。如图1所示,实验结果表明,使用Nativa School预训练的模型在通用基准、长上下文任务和指令推理方面,维持或超过了全注意力模型的表现。同时,Nativa School在64k长度序列的解码、正向传播和反向传播过程中相对于全注意力机制实现了显著的加速,验证了其在整个模型生命周期中的高效性。
arXiv:2502.11085v1 Announce Type: cross
摘要:本文挑战了原子性质预测领域近期的一种范式,该范式认为进展与数据集大小和计算资源的增加有关。我们展示了在精心选择的相关数据集上进行预训练可以匹配甚至超越大规模预训练的效果,同时仅使用不到1/24的计算成本。我们介绍了分子相似度指数(CSI),这是一种受计算机视觉中Fréchet Inception Distance启发的新颖度量方法,用于量化上游预训练数据集与下游任务之间的对齐程度。通过选择CSI距离最小的最相关数据集,我们展示了在较小的、有针对性的数据集上进行预训练的模型始终优于在大规模混合数据集(如JMP)上进行预训练的模型,即使这些较大的数据集包含了相关数据集。出乎意料的是,我们还发现,不加选择地增加更多的数据可能会在数据与手头任务不匹配的情况下降低模型性能。我们的研究结果突显了在原子性质预测的预训练中,质量往往优于数量。
arXiv:2502.11079v1 类型: cross
摘要:基础模型在视频生成方面的持续发展正在演变成各种应用,而主题一致的视频生成仍然处于探索阶段。我们将这种情况称为“主题到视频”,该方法从参考图像中提取主题元素,并通过文本指令生成主题一致的视频。我们相信,主题到视频的核心在于平衡文本和图像的双模态提示,从而深入且同时对齐文本和视觉内容。为此,我们提出了Phantom,这是一种统一的视频生成框架,适用于单主题和多主题参考。基于现有的文本到视频和图像到视频架构,我们重新设计了联合文本-图像注入模型,并通过文本-图像-视频三元组数据驱动其学习跨模态对齐。特别是在人类生成方面,我们强调主题一致性,涵盖了现有的身份保留视频生成,并提供了增强的优势。项目主页在这里 https://phantom-video.github.io/Phantom/。
arXiv:2502.11075v1 类型: cross
摘要: 大型语言模型(LLMs)在自然语言处理任务中展现出了令人印象深刻的性能,例如文本生成和语义理解。然而,在数值推理任务中,如基础算术、数值检索和大小比较等方面,它们的表现仍然出乎意料地糟糕。这一差距源于它们依赖于表面的统计模式,而不是理解数字作为连续量的本质。现有的基准测试主要集中在语言能力或结构化数学问题解决上,忽视了在真实世界场景中所需的最基本的数值推理能力。为了解决这一差距,我们提出了NumericBench,这是一个全面的基准测试,用于评估六个基本的数值能力:数字识别、算术运算、上下文检索、比较、总结和逻辑推理。NumericBench 包括从合成数字列表到抓取的实际数据集,以应对长上下文、噪声和多步推理等挑战。对最先进的LLMs(包括GPT-4和DeepSeek)进行广泛的实验揭示了数值推理方面的一贯薄弱环节,突显了提高数值敏感语言建模的迫切需要。基准测试在以下链接发布:https://github.com/TreeAI-Lab/NumericBench。
arXiv:2502.11070v1 交叉类型: cross
摘要:在当今高度互联的数字环境中,随着漏洞数量和复杂性的指数级增长,保护复杂的基础设施免受网络威胁变得越来越具有挑战性。资源限制要求有效的漏洞优先级策略,专注于最关键的风险。本文综述了82篇研究文献,提出了一个新的分类法,将指标分为严重性、可利用性、情境因素、预测指标和聚合方法。我们的分析揭示了现有方法中的重大缺口,并且存在跨域适用性的挑战。通过强调动态、情景意识指标以及可扩展解决方案的需要,我们提供了一些建议,以弥合研究与实际应用之间的差距。本项工作旨在为评估漏洞优先级方法提供全面框架,并提出研究议程以推进实践现状。
arXiv:2502.11068v1 类别:交叉学科
摘要: 锚点是流行的地方模型无偏解释技术,但由于其计算效率低下而受到限制。为解决这一局限性,我们提出了一种基于预训练的方法来加速锚点而不牺牲解释质量。我们的方法利用了锚点算法的迭代性质,该算法逐渐细化解释,直到在给定输入下足够精确,并通过预训练获得了一个普遍的初始解释。具体来说,我们开发了一个两步规则转换过程:水平转换通过替换特征将预训练解释适应当前输入,垂直转换则不断细化普遍解释,直到其对输入足够精确。我们跨表格、文本和图像数据集评估了我们的方法,结果显示它在显著减少解释生成时间的同时保持了准确性和可解释性,从而使锚点能够在时间敏感的应用中得到实际应用。
arXiv:2502.11059v1 通告类型: cross
摘要:天气预报对于公共安全、灾害预防与缓解、农业生产和能源管理具有全球重要意义。尽管深度学习显著推进了天气预测,当前的方法仍然面临着重大限制:(i)它们往往难以捕捉动态的时间依赖关系和短期的突变变化,使得极端天气建模变得困难;(ii)由于广泛的训练和资源需求导致计算成本高昂;(iii)它们对多尺度频率的适应性有限,导致在分离全球趋势与本地波动时遇到挑战。为了解决这些问题,我们提出了ClimateLLM,一种用于天气预报的基础模型。它通过融合基于傅里叶变换的频率分解与大型语言模型(LLMs)来强化时空建模,采用时空协作建模框架捕捉时空依赖关系。我们的框架利用了一种门控专家(MoE)机制,能够适应性地处理不同的频率成分,从而有效地处理全球信号和局部极端事件。此外,我们还引入了一种时空动态提示机制,使LLMs能够有效地跨多尺度整合气象模式。在现实世界数据集上的广泛实验表明,ClimateLLM 在准确性和效率方面均优于现有方法,是一种适用于全球天气预报的可扩展解决方案。
arXiv:2502.11057v1 安全类型:交叉
摘要:随着自主系统在日常生活中越来越普遍,确保在保证安全的前提下达到高性能是至关重要的。然而,安全和性能可能是互相矛盾的目标,这使得它们的共同优化变得困难。基于学习的方法,如受限强化学习(CRL),可以实现强大的性能,但由于安全仅作为软约束进行强制执行,缺乏正式的安全保证,限制了它们在关键安全领域中的应用。相反,正式方法,如哈密尔顿-雅可比(HJ)可达性分析和控制屏障函数(CBFs),提供了严格的安全保证,但往往忽视了性能,导致控制器过于保守。为了解决这一问题,我们将安全和性能的共同优化形式化为状态受限最优控制问题,其中通过成本函数将性能目标编码,并将安全性要求作为状态约束施加。我们证明了由此产生的价值函数满足哈密尔顿-雅可比-贝尔曼(HJB)方程,并使用一种新的物理启发的机器学习框架高效地进行近似。此外,我们引入了一种基于齐性预测的验证策略来量化学习误差,恢复一个具有高信心的安全值函数,以及性能退化的概率误差界。通过几个案例研究,我们展示了所提议框架的有效性,能够在复杂的高维自主系统中实现安全且高性能控制器的学习。
arXiv:2502.11054v1 声明类型: cross
摘要:多轮牢笼攻击通过让大规模语言模型(LLMs)在迭代对话中参与,模拟现实世界的人际互动,从而暴露了关键的安全漏洞。然而,现有的方法往往难以在语义连贯性和攻击效果之间取得平衡,导致要么语义漂移无害,要么检测逃逸无效。为了解决这一挑战,我们提出了增强推理的会话(Reasoning-Augmented Conversation, RACE),这是一种新颖的多轮牢笼框架,通过将有害查询重新构造成无害的推理任务,并利用LLMs的强大推理能力来破坏安全对齐。具体来说,我们引入了一个攻击状态机框架,系统地建模问题翻译和迭代推理,确保多次轮次中查询生成的连贯性。基于此框架,我们设计了收益导向的探索、自我博弈和拒绝反馈模块,以保持攻击的语义,增强效果,并维持基于推理的攻击进展。在多个LLMs上的广泛实验表明,RACE在复杂对话场景中的攻击效果达到了最先进的水平,攻击成功率(ASRs)提高了高达96%。值得注意的是,我们的方法在对抗领先的商用模型OpenAI o1和DeepSeek R1时分别取得了82%和92%的攻击成功率,突显了其强大的能力。我们将在https://github.com/NY1024/RACE发布我们的代码,以促进在此关键领域的进一步研究。
arXiv:2502.11051v1 Announce Type: cross
摘要:最近在机器遗忘(MU)方面的进展引入了从深度神经网络中选择性删除私人或敏感信息的解决方案。然而,对于多模态大语言模型(MLLMs)的MU仍处于初级阶段。因此,我们提出了在MLLM时代重述多模态MU的任务,其目标是在保留原始语言模型主干中与给定实体对应的文本知识的同时,仅删除与该实体相关的视觉模式。此外,我们开发了一种新颖的几何约束梯度下降方法MMUnlearner。在遗忘过程中,MMUnlearner通过联合限制剩余的概念和文本知识来更新MLLM的权重,从而保留对于非目标知识至关重要的参数。广泛的经验表明,MMUnlearner在所有评估维度上都优于直接通过梯度上升(GA)或负偏好优化(NPO)微调MLLM的基线方法。我们的代码将在接受后发布。