arXiv:2504.04718v1 Announce Type: cross
摘要:最近的研究表明,测试时计算缩放有效提高了小型语言模型(sLMs)的性能。然而,先前的研究主要关注使用附加较大的模型作为验证者进行测试时计算缩放,而小型语言模型的自我验证则尚未得到充分探索。在这项工作中,我们探讨了小型语言模型在测试时缩放下是否能够可靠地自我验证其输出。我们发现,即使有较大验证者的知识蒸馏,小型语言模型在要求记忆的任务上进行验证仍然存在困难,比如数值计算和事实核查。为了解决这一局限性,我们提出了工具集成自我验证(T1),将记忆密集型验证步骤委托给外部工具,如代码解释器。我们的理论分析表明,工具集成减少了记忆需求并提高了测试时计算缩放性能。在MATH基准上的实验表明,通过T1,一个Llama-3.2 1B模型在测试时缩放下的表现优于显著更大的Llama-3.1 8B模型。此外,T1在数学(MATH500)和多领域知识密集型任务(MMLU-Pro)上都表现出良好的泛化能力。我们的发现强调了工具集成对大幅提升小型语言模型自我验证能力的潜在价值。
arXiv:2504.04717v1 类型: cross
摘要:近年来,大型语言模型(LLMs)在处理单轮任务方面的进展已经彻底改变了它们的能力,但在实际应用中,需要复杂的多轮互动。本文综述了最近在评估和提升LLMs的多轮互动方面取得的进展。本文专注于特定任务的场景,从数学和编码领域的指令跟随到角色扮演、医疗保健、教育,甚至对抗性 jailbreak 环境中的复杂对话互动,在系统地探讨在长时间对话中保持上下文、连贯性、公平性和响应性方面的挑战。文章将当前的基准和数据集组织成连贯的类别,反映了多轮对话评估领域的不断演变。此外,我们回顾了在多轮对话环境中的一系列增强方法,包括以模型为中心的策略(上下文学习、监督微调、强化学习和新架构)、外部集成方法(记忆增强、检索方法和知识图谱)以及支持协作互动的代理技术。最后,我们讨论了开放挑战,并提出了未来的研究方向,以进一步提高LLMs中多轮互动的稳健性和有效性。有关资源和论文可在 https://github.com/yubol-cmu/Awesome-Multi-Turn-LLMs 获取。
arXiv:2504.04706v1 类别: cross
摘要: 知识追踪(KT)监控学生知识状态并模拟其对问题序列的响应。现有的KT模型通常遵循单一步骤训练范式,这导致了与现实世界模拟中所需的多步骤推理过程之间的差异,从而导致了显著的误差累积。这种误差累积,加上数据稀疏性问题,可以显著降低智能辅导系统中推荐模型的性能。为了解决这些挑战,我们提出了一种新颖的具备多步骤训练框架的知识追踪(AdvKT),这是首次重点关注多步骤KT任务。具体而言,AdvKT 利用了生成器和判别器的对抗学习范式。生成器模拟高奖励响应,有效减少了跨多个步骤的误差累积,而判别器提供反馈以生成合成数据。此外,我们设计了专门的数据增强技术,以增加训练数据中的现实变异性,确保即使在数据稀疏的场景中,模型也能很好地泛化。在四个真实世界数据集上的实验结果显示了AdvKT相较于现有KT模型的优势,展示了其有效解决误差累积和数据稀疏性问题的能力。
arXiv:2504.04704v1 宣称类型: cross
摘要:在大型语言模型(LLM)长时间上下文推理中,键-值(KV)缓存的不断增加的大小已成为其在部署成本与任务准确性之间平衡的主要障碍。在这种情况下,为了减少KV缓存大小,大多数先前的努力都是基于注意力权重来移除非关键缓存令牌。但在这些方法中存在权衡,它们通常需要对推理基础设施进行重大修改并产生显著的计算开销。基于大型语言模型是自回归模型的事实,我们提出了一种名为LagKV的KV分配策略,该策略仅依赖于对KV自身的直接比较。这是一种完全不依赖注意力的方法,它可以轻松集成到主流的推理平台中,在压缩比与其他复杂KV压缩方法相当的情况下,其性能具有可比性。LongBench和PasskeyRetrieval结果表明,当压缩比为2倍时,我们的方法几乎没有任何性能损失;而在压缩比为8倍的情况下,其性能相当于原有模型的约90%。特别是在64位密码检索任务中,我们的方法在相同的压缩比下比基于注意力权重的方法H_2O优越60%以上。我们的代码可在https://github.com/AI-Lab-China-Merchants-Bank/LagKV获得。
arXiv:2504.04702v1 宣告类型: cross
摘要:基于Transformer的架构的最近进步在自然语言处理任务中取得了令人印象深刻的突破,如GPT-4、Claude和Gemini等模型展示了human-level的推理能力。然而,尽管这些模型具有高性能,人们仍然对其固有的局限性有所担心,尤其是在学习基本逻辑函数方面。虽然从复杂理论分析表明,Transformer可以通过其属于$\mathsf{TC}^0$类的本质来表示简单的逻辑函数(例如,$\mathsf{AND}$,$\mathsf{OR}$ 和大多数门),这些结果假设了理想参数设置,并未考虑到基于梯度下降的训练方法所施加的约束。在本工作中,我们探讨了Transformer在使用基于梯度的方法训练时,是否能够真正学习简单的大多数函数。我们关注简化版的Transformer架构,并考虑了两种情况:$n=\mathrm{poly}(d)$和$n=\exp(\Omega(d))$数量的训练样本,其中每个样本是一个$d$大小的二进制字符串,以及一个基本的大多数函数的输出。我们的分析表明,即使进行了$\mathrm{poly}(d)$次梯度查询,Transformer模型的泛化误差仍然显著较大,并且随着$d$的增加而指数增长。这项工作突显了训练Transformer进行最简单的逻辑推理任务时的基本优化挑战,并提供了对其理论限制的新见解。
arXiv:2504.04699v1 类型: cross
摘要:大规模语言模型(LLMs)在软件漏洞检测(SVD)方面展示了令人鼓舞的表现,但它们的推理能力仍然不可靠。现有的依赖于思维链(CoT)的方法在提供相关且可行的安全评估方面颇具挑战。此外,有效的SVD不仅需要生成连贯的推理,还需要区分正当且误导性的合理安全评估,而这一点在以往的工作中被忽略了。为此,我们提出了R2Vul,这是一种新颖的方法,通过从AI反馈中进行强化学习(RLAIF)将结构化推理精炼到小型LLM中。通过RLAIF,R2Vul使LLM能够生成结构化且安全意识强的推理,这种推理是可行和可靠的,同时使其能够明确学习区分正当的评估与误导性的评估。我们在五种不同语言上将R2Vul与SAST工具、CoT、指令微调以及基于分类的基本模型进行了评估。我们的结果显示,R2Vul通过结构化推理精炼使得一个1.5B参数的学生模型能够与更大的模型相媲美,并增强了对不同分布漏洞的泛化能力。除了模型改进之外,我们还贡献了一个大规模的、多语言的偏好数据集,其中包含结构化推理,以支持未来的SVD研究。
arXiv:2504.04687v1 宣告类型:交叉
摘要:涉及水印清洁和背景内容恢复的可视水印去除对于评估水印的抗攻击能力至关重要。现有的基于深度神经网络(DNN)的模型在处理大面积水印时仍然力有未逮,并且过于依赖水印掩码预测的质量。为了解决这些问题,我们提出了一种新颖的功能适应框架,该框架利用了预训练图像修复模型的表征建模能力。我们的方法通过融合水印下方残余背景内容的信息,弥补了图像修复和水印去除之间的知识鸿沟。我们建立了一个双分支系统,以捕获和嵌入来自残余背景内容的特征,并通过门控特征融合模块将这些特征合并到图像修复主干模型的中间特征中。此外,为了减轻对高质量水印掩码的依赖,我们引入了一种新的训练范式,利用粗糙的水印掩码指导推断过程。这有助于建立一个在测试过程中对水印掩码质量不敏感的可视图像去除模型。在大规模合成数据集和真实世界数据集上的广泛实验表明,我们的方法显著优于现有的先进方法。源代码将在补充材料中提供。
arXiv:2504.04676v1 交叉公告类型
摘要:多视图聚类可以从多个视角中探索共同的语义,并在近年来得到了越来越多的关注。然而,当前的方法关注的是在表示中学习一致性,忽略了每个视角在表示学习中的互补性方面的贡献。这一限制在多视图表示学习中构成了一个重大挑战。本文提出了一种新的多视图聚类框架,引入了一个解耦的变分自编码器来将多视图分割为共享和私有信息,即一致性信息和互补性信息。首先,通过对比学习最大化不同视图之间的互信息来学习具有信息性和一致性的表示。这一过程中将会忽略互补信息。然后,我们采用一致性推理约束来在试图在所有视图中寻求共享信息的一致性时明确利用互补信息。具体地,我们使用每视图的私有和共享信息进行内部重建,并使用所有视图的共享信息进行跨视图重建。双重一致性约束不仅有效提高了数据的表示质量,而且便于扩展到其他场景,尤其是复杂多视图场景。这可能是第一次在统一的多视图聚类(MVC)理论框架中采用双重一致性约束的尝试。在训练过程中,一致性与互补性特征共同优化。大量的实验证明了我们方法的优越性。
arXiv:2504.04654v1 交叉类型:
摘要: 在计算药物发现中,化合物-蛋白质相互作用(CPI)的准确预测仍然是一个核心挑战。现有基于序列的方法利用了分子指纹或图表示,但它们严重忽视了结合亲和力的三维(3D)结构决定因素。为解决这一问题,我们提出了EquiCPI,这是一种端到端的几何深度学习框架,结合了第一性原理结构建模和SE(3)-泛对称神经网络。我们的工作流程通过ESMFold将原始序列转换为蛋白质的3D原子坐标,并通过DiffDock-L将配体转换为3D原子坐标,随后进行基于物理的构象重新排序和泛对称特征学习。核心而言,EquiCPI 采用SE(3)-泛对称的消息传递来处理原子点云,保留了在旋转、平移和反射下的对称性,并通过球谐函数的张量积层级化编码局部相互作用模式。所提出模型在BindingDB(亲和力预测)和DUD-E(虚拟筛选)上进行评估,EquiCPI 的性能与或优于当前最先进的深度学习竞争对手。
arXiv:2504.04645v1 交叉论文类型
摘要:深度学习已经在医学图像分割中取得了成功应用,能够准确识别如器官和病变等区域。这种方法在多种数据集上都表现出有效性,包括单图像对比、多对比和多模态成像数据。为了提高人们对这些黑盒模型的人类理解,需要使用可解释人工智能(XAI)技术来提高模型的透明度和责任感。以往的研究主要集中在事后像素级解释上,使用基于梯度和扰动的方法。这些方法依赖于梯度或扰动来解释模型预测。然而,这些像素级解释往往难以应对多对比磁共振成像(MRI)分割任务中的复杂性,而且稀疏的解释在临床上有很强的局限性。在本研究中,我们提出使用对比级别Shapley值来解释用于脑肿瘤分割的标准评估指标训练的先进模型。我们的结果表明,Shapley分析提供了不同模型在肿瘤分割中行为的重要见解。我们展示了U-Net对T1-对比和FLAIR有偏好的过度重视,而Swin-UNETR则提供了跨对比度的理解,并有平衡的Shapley分布。