arXiv:2502.02040v1 类别: cross
摘要:残差变换可以增强大型语言模型(LLMs)的表现力和表达能力。然而,在自回归生成过程中,对所有标记应用静态残差变换会导致推理效率和生成保真度之间的次优权衡。现有方法,包括早期退出、跳过解码和深度混合适应,通过基于标记复杂度调节残差变换来解决这一问题。尽管这些方法主要考虑标记在模型层中走过的距离,但忽视了残差演变的潜在速度。我们提出了多速率残差混合适应(M2R2)框架,该框架动态调节残差速度以提高早期对齐效果,从而提高推理效率。在诸如Koala、Self-Instruct、WizardLM和MT-Bench等以推理为导向的任务中,M2R2超越了基于距离的最新策略,平衡了生成质量和加速效果。在自推测解码设置中,M2R2在MT-Bench上实现了高达2.8倍的加速,优于如双模型推测解码、Medusa、LookAhead 解码和DEED等方法。在专家混合适应(MoE)架构中,将早期残差对齐与专家的提前加载结合到高带宽内存(HBM)中,加速了解码,减少了专家切换瓶颈,并实现了2.9倍的加速,使其在资源受限环境中非常有效。
arXiv:2502.02036v1 通告类型: 交叉
摘要:本文提出了一种基于人类手臂手势控制多余自由度机器人 manipulator 的远程操作系统。我们提出了一种基于 GRU 的变分自编码器来学习 manipulator 配置空间的潜在表示,捕捉其复杂的关节运动学。一个全连接的神经网络将人类手臂配置映射到潜在空间,从而使系统能够通过 VAE 解码器实时模仿和生成相应的 manipulator 轨迹。所提出的方法在远程操控 manipulator 方面显示出有前途的结果,能够从训练期间未出现的人类特征生成新的 manipulator 配置。
arXiv:2502.02032v1 交叉公告类型
摘要:在许多实际应用中,回归模型被用来揭示预测变量与响应变量之间的关系,然而,常假设恒定误差方差的常见假设经常被违反。在高维环境中,预测变量的数量超过样本大小,这进一步加剧了这一问题,需要正则化以实现有效的估计和变量选择。为了解决这个问题,我们提出了一种新颖的框架——异方差双Bayesian弹性网络(HDBEN),该框架通过包含$\ell_1$和$\ell_2$惩罚的分层Bayesian先验同时建模均值和对数方差。我们的方法不仅在回归系数和方差参数中诱导稀疏性和分组,还捕捉到数据中的复杂方差结构。理论结果表明,在轻微条件下,所提出的HDBEN实现了后验集中、变量选择一致性和渐近正态性,从而证明了其行为的有效性。进一步的模拟研究还表明,HDBEN在异方差性和高维性特征明显的场景中优于现有方法。
arXiv:2502.02028v1 交叉公告类型:cross
摘要:本文探讨了通过微调各种非常小的语言模型来完成食谱生成任务,重点关注开发稳健的评估指标,并在不同语言模型之间比较开放式食谱生成任务。本研究进行了广泛的实验,涵盖了从T5-small(Raffel et al., 2023)、SmolLM-135M(Allal et al., 2024)到Phi-2(Research, 2023)的多种模型架构,实施了传统NLP指标和自定义领域特定评估指标。我们的新颖评估框架包含了针对内容质量的食谱特定指标,并引入了一种过敏原替代的方法。研究结果表明,虽然更大的模型通常在标准指标上表现更好,但在考虑领域特定指标时,模型大小与食谱质量之间的关系更为复杂。我们发现,尽管SmolLM-360M和SmolLM-1.7B在大小上有差异,但它们在性能上表现出可比性,而Phi-2尽管参数更多,在食谱生成方面显示出局限性。我们的全面评估框架和过敏原替代系统为未来在食谱生成及其他需要领域专业知识和安全考虑的更广泛NLG任务中的研究提供了宝贵见解。
arXiv:2502.02027v1 宣告类型:交叉
摘要:本研究探讨了在基于人类视觉线索去雾的条件下,将人类感知的选定性纳入对象检测中所面临的挑战。虽然人类视觉能够动态适应环境条件,但计算去雾并不总是均匀地提高检测效果。我们提出了一种多阶段框架,其中轻量级检测器识别感兴趣区域(RoIs),然后通过基于空间注意力的去雾处理,最后由更重的模型进行最终检测。尽管在雾天条件下效果良好,但这种方法却意外地在清晰图像上降低了性能。我们分析了这一现象,探讨了可能的原因,并提出了设计混合管道的见解,以平衡增强和检测。我们的发现强调了选择性预处理的必要性,并挑战了级联变换具有普遍益处的假设。
arXiv:2502.02017v1 交叉公告类型:图形
摘要:近期在计算机视觉(CV)和自然语言处理(NLP)方面的进展激励着研究人员通过跨领域预训练开发通用图形基础模型。然而,不同领域之间的图形拓扑差异构成了一个基本挑战。此外,现实中的图形往往是稀疏的,并且容易受到噪声连接和对抗攻击的影响。为了解决这些问题,我们提出了多领域图形基础模型(MDGFM),这是一种统一框架,通过对齐和利用跨领域的拓扑信息来促进稳健的知识迁移。MDGFM通过适应性地平衡特征和拓扑结构,同时对原始图形进行改进,以消除噪声和对齐拓扑结构,来跨越不同的领域。为了进一步增强知识迁移,我们引入了一种有效的提示调优方法。通过对齐拓扑结构,MDGFM不仅改善了跨领域的预训练,还使知识迁移能够在未见领域中稳健进行。理论分析提供了MDGFM有效性和领域泛化能力的保证。在同质性和异质性图形数据集上的广泛实验验证了我们方法的稳健性和有效性。
arXiv:2502.02016v1 宣告类型: cross
摘要: 生成晶体数据分布的建模是一个重要但具有挑战性的任务,由于晶体的独特的周期性物理对称性。基于扩散的方法在建模晶体分布方面显示出了早期的潜力。最近,贝叶斯流网络被引入以聚合嘈杂的潜在变量,从而产生一个减小方差的参数空间,该参数空间已被证明在具有结构约束的欧几里得数据分布建模中具有优势(Song et al., 2023)。受到这一工作的启发,我们寻求通过克服复杂的理论问题来解锁其在非欧几里得流形上的潜力,例如晶体结构内的变量。我们提出了CrysBFN,一种新颖的晶体生成方法,通过提出一种周期性的贝叶斯流,本质上与原始的基于高斯的BFN有所区别,其熵动力学是非单调的。为了成功实现周期性贝叶斯流的概念,CrysBFN集成了一个新的熵条件机制,并且在与时间条件机制相比时,其重要性得到了实证证明。在晶体从头生成和晶体结构预测任务上的广泛实验表明,CrysBFN在其所有基准测试上表现出了优越性,始终实现了新的性能最佳。令人惊讶的是,我们发现CrysBFN在采样效率上取得了显著的改进,例如,在MP-20数据集上与先前的基于扩散的方法相比,10步网络前向传播的速度提高了约100倍(2000步)。代码可在 https://github.com/wu-han-lin/CrysBFN 获取。
arXiv:2502.02014v1 类型: cross
摘要: 尽管在基于学习的方法上取得了进展,但为非线性动态系统找到有效的李雅普诺夫函数仍然具有挑战性。当前的神经网络方法面临两大主要问题:可扩展验证的挑战和有限的可解释性。为了解决这些问题,我们提出了一种端到端框架,使用变换器构建分析李雅普诺夫函数(局部),这简化了形式验证,增强了可解释性,并为控制工程师提供了有价值的见解。我们的框架由一个基于变换器的训练器组成,该训练器生成候选李雅普诺夫函数,以及一个验证器,通过风险寻求的策略梯度来验证候选表达式并优化模型。与Alfarano等人(2024)不同,后者利用了预训练并寻找低维系统中的全局李雅普诺夫函数,我们的模型通过强化学习(RL)从头开始训练,并成功地找到了高维和非多项式系统的局部李雅普诺夫函数。由于候选者的分析性质,我们在训练过程中采用了高效的优化方法进行矛盾验证,并最终使用形式验证工具进行验证。我们在具有多达十个维度的多种非线性动态系统中展示了我们方法的有效性,并证明它可以发现控制文献中未曾发现的李雅普诺夫函数。
arXiv:2502.02013v1 宣言类型: cross
摘要:从提取特征到生成文本,大型语言模型(LLMs)的输出通常依赖于其最终层,遵循传统智慧认为早期层仅捕获低级线索的观点。然而,我们的分析表明,中间层可以编码更丰富的表示,并且在一系列下游任务中经常表现出更好的性能。为了解释和量化这些隐藏层的属性,我们提出了一种基于信息理论、几何学和输入扰动不变性的统一表示质量度量框架。该框架突出了每个模型层在信息压缩和信号保留之间的权衡,揭示了为什么中间深度的嵌入可以超越最终层的性能。通过在32个文本嵌入任务上进行广泛的实验,并在不同模型架构(变换器、状态空间模型)和领域(语言、视觉)上进行比较,我们证明中间层始终提供更强的特征。这些发现挑战了仅关注最终层嵌入的标准做法,并为模型分析和优化开辟了新的方向,包括策略性地利用中间层表示以构建更鲁棒和准确的AI系统。
arXiv:2502.02009v1 安全公告类型: cross
摘要:容器编排器(COs)中的安全配置错误可能会对软件系统构成严重威胁。虽然静态分析工具(SATs)可以有效检测这些安全漏洞,但目前行业缺乏能够自动修复这些配置错误的解决方案。随着大型语言模型(LLMs)在代码理解和生成方面已证明的能力,为解决这一局限性提供了机会。本研究引入了LLMSecConfig这一创新框架,通过将SATs与LLMs相结合来填补这一缺口。我们的方法利用高级提示技术及检索增强生成(RAG),以自动修复安全配置错误,同时保持运营功能。对1000个实际的Kubernetes配置进行评估,修复成功率达到94%,同时引入新的配置错误的几率较低。
我们的工作朝着自动化容器安全管理方向迈出了有 promise 的一步,减少了配置维护所需的 manual 努力。