arXiv:2501.04945v3 宣告类型: replace-cross
摘要:对于大型语言模型(LLMs)而言,遵循涉及多种约束的指令至关重要。然而,增强LLMs遵循软约束能力的研究尚未被探索。为弥补这一差距,我们首先设计了一个流水线来自动构建具有高质量输出的数据集。此外,为了充分利用数据构建过程中生成的正样本和负样本,我们选择了直接偏好优化(DPO)作为训练方法。同时,考虑到由约束数量反映的软约束的难度,我们基于约束数量设计了一种分阶段学习训练范式。我们实验性地评估了我们方法在提高LLMs遵循软约束能力方面的有效性,并分析了推动改进的因素。该数据集和代码可在 https://github.com/Rainier-rq/FollowSoftConstraint 公开获取。
arXiv:2501.04286v2 公告类型:替换-交叉
摘要:在分形几何的领域中,复杂的结构源自简单的迭代过程,该过程将参数空间划分为稳定区域和不稳定区域。同样,在训练大型语言模型时,通过迭代应用更新函数(如 Adam),即使是轻微的超参数调整也会使训练过程从收敛转变为发散。最近来自小型神经网络的证据表明,这些结果之间的分界线具有分形特性。基于这些见解,本研究将这些发现扩展到中型、仅解码器变压器架构中,通过采用更一致的收敛度量和检查注意层和全连接层的超参数景观来进行。结果表明,可训练区域前沿并非简单的阈值;相反,它在多个尺度上形成了自我相似但似乎随机的结构,具有统计上一致且重复的模式。在此景观中,一个稳定收敛的区域被一个复杂的混沌边界包围,表明底层训练动力学的高度敏感性。
arXiv:2501.03226v3 宣告类型: replace-cross
摘要:大型语言模型(LLMs)在解决多步推理的复杂数学问题方面展现了令人印象深刻的能力,并且可以通过精心设计的上下文内学习(ICL)示例进一步增强。然而,这种潜力往往受限于ICL中的两个主要挑战:细粒度不匹配和无关信息。我们观察到,尽管LLMs在分解数学问题方面表现出色,但在细粒度步骤中的推理错误却常常成为挑战。此外,基于问题检索的ICL示例可能会省略关键步骤,甚至由于无关细节误导模型。为了解决这个问题,我们提出了一种名为BoostStep的方法,通过步骤对齐的ICL增强推理准确性,这是一种创新机制,能够仔细将检索到的参考步骤与相应的推理步骤对齐。此外,BoostStep还纳入了一种有效的“初次尝试”策略,以提供与当前推理状态高度相关的范例。BoostStep是一种灵活且强大的方法,能够无缝集成到chain-of-thought(CoT)和树搜索算法中,改进候选选择和决策制定。实验结果表明,BoostStep使得GPT-4o在数学基准测试中的CoT性能提高了4.6%,显著超过了传统的少样本学习的1.2%。此外,它结合树搜索可以实现额外的7.5%的提升。令人惊讶的是,它使用简单的示例就能增强最新大型语言模型解决复杂数学问题的能力。BoostStep使得DeepSeek-R1-671B在AIME上的表现提高了2.2%,仅利用来自MATH数据集的简单示例。
arXiv:2501.03035v2 宣告类型: replace-cross
摘要:大规模语言模型在复杂的数学推理基准测试,如 MATH,方面取得了显著进展。然而,它们巨大的计算需求为实际部署带来了挑战。模型量化已作为有效策略出现,通过使用较低精度和位宽表示来减少内存使用和计算成本。在本研究中,我们系统地评估了量化对数学推理任务的影响。结果显示,激进的量化方法如AWQ和GPTQ在Llama-3模型中引入了多达32.39%的准确度下降(平均11.31%),特别是在数值计算和推理规划方面。为了解决这一问题,我们提出了一个结合定性能力分析和定量误差评估的多维度评估框架。此外,我们还开发了针对性的恢复策略,显示在4个GPU上仅对545个任务特定示例进行3分钟的微调,可以有效恢复到接近全精度水平的推理能力。此外,我们的误差评估管道在3,366个失败案例中实现了98.9%的准确度,用于诊断和定位误差,提供了减轻量化引起的下降的可操作见解。
arXiv:2501.02593v2
类型公告:替换-交叉
摘要:基于骨架的动作识别由于其能够以轻量级格式高效表示时空信息而引起了显著的关注。现有大多数方法使用基于图的模型来处理骨架序列,其中每个姿态都作为围绕人体物理连接结构化的骨骼图进行表示。在这些方法中,时空图卷积网络(ST-GCN)已成为广泛应用的框架。相反,基于超图的模型,如Hyperformer,能够捕捉高阶相关性,提供对复杂关节交互的更具表现力的表示。最近的一项进展称为Taylor Videos,通过嵌入运动概念引入了运动增强的骨架序列,为基于骨架的动作识别提供了新颖的视角。在这项论文中,我们使用ST-GCN和Hyperformer模型在NTU-60和NTU-120数据集上对传统的骨架序列和Taylor变换的骨架进行了全面评估。我们比较了骨骼图和超图表示,分析了静态姿态与运动注入姿态之间的差异。我们的研究结果突出了Taylor变换的骨架的优势和限制,展示了它们在增强运动动态方面的能力,同时也揭示了当前在充分利用其优势方面的挑战。这项研究强调了需要创新的骨骼建模技术来有效处理富有运动信息的数据,并进一步推进动作识别领域的进步。
arXiv:2501.01743v2 宣告类型: replace-cross
摘要:法律文章通常包含模糊的概念以适应不断变化的社会。对这些概念进行详细的解释是一个对法律从业者来说既关键又具有挑战性的任务。这需要法律专家进行细致且专业的注释和总结,而这在大规模收集时是时间和成本密集的。通过模仿法律专家的教义学方法,我们引入了一个名为 ATRIE 的新型框架,使用大规模语言模型(LLMs)来自动检索与概念相关的信息、解释法律概念并评估生成的解释,从而摆脱对法律专家的依赖。ATRIE 包括一个法律概念解释器和一个法律概念解释评估器。解释器使用 LLMs 从司法先例中检索相关信息并对法律概念进行解释。评估器利用我们提出的一个下游任务——法律概念蕴含性能的变化作为解释质量的代理。自动和多维度的人类评估表明,我们解释的质量与法律专家撰写的解释相当,且更加全面和易读。尽管在准确性上仍存在细微差距,但它已经能够帮助法律从业者提高概念解释的效率。
arXiv:2501.01507v2 推广类型: 替换交叉
摘要: 本文分析了变量子电路(VQC)的迁移学习。我们的框架始于一个在某领域预训练的VQC,并计算了用于新领域所需的1参数酉子群的转换。建立了形式化方法来研究在损失界限分析下VQC的适应性和能力。我们的理论观察了VQCs中的知识转移,并提供了机制的启发式解释。推导出一种分析性的微调方法,以获得相似领域适应的最佳转换。
arXiv:2412.19179v2 宣告类型: replace-cross
摘要:遥感影像变化描述代表了遥感处理领域内的一项创新的多模态任务。这一任务不仅有助于表面条件变化的检测,还提供了这些变化的综合描述,从而提高人的解释能力和互动性。通常,现有的基于深度学习的方法主要采用三阶段框架,依次执行从双时相影像中提取特征、融合特征和定位,然后进行文本生成。然而,这种依赖往往导致对特定网络架构设计的关注过多,并且限制了特征在手头数据集上的分布,从而在应用中导致了有限的泛化能力和鲁棒性。为了解决这些限制,本文提出了一种新的遥感影像变化检测和描述方法,结合了扩散模型,旨在将建模范式的重点从传统的特征学习转向数据分布学习。该提出的方法主要包括一个简单的多尺度变化检测模块,其输出特征随后通过一个精心设计的扩散模型进行细化。此外,我们引入了一个基于频率的复杂滤波模块,在扩散过程中管理高频率噪声,以提升模型性能。我们在多个遥感变化检测和描述数据集上验证了我们提出方法的效果,展示了其在性能上优于现有技术。论文发表后,代码将在 \href{https://github.com/sundongwei}{MaskApproxNet} 上开源。
arXiv:2412.18547v4 通告类型: replace-cross
摘要:推理是大型语言模型(LLMs)在广泛任务中表现出色的关键。虽然像Chain-of-Thought(CoT)推理等方法通过将问题分解为中间步骤来提升LLM的表现,但也导致了显著的标记使用量增加,从而增加了成本。我们发现当前LLMs的推理过程过于冗长,可以通过在提示中包含合理的标记预算来压缩,但标记预算的选择在实际压缩效果中起着关键作用。随后,我们提出了一种具有标记预算意识的LLM推理框架,该框架基于推理复杂性动态估计不同问题的标记预算,并使用估计的标记预算来指导推理过程。实验结果表明,我们的方法在CoT推理中仅轻微降低了性能的同时有效地降低了标记成本,提供了一种在效率和准确性之间平衡的实际解决方案。代码:https://github.com/GeniusHTX/TALE。
arXiv:2412.18053v2 宣告类型: 替换交叉
摘要:尽管预训练语言模型(PLMs)中的前向神经元可以存储知识,且它们对影响模型输出的重要性已被研究,但现有工作主要集中在找到一小部分神经元并分析其相对重要性上。然而,激活值在塑造输出方面的作用的全局定量角色仍然不清楚,这阻碍了在知识编辑等应用中的进一步发展。我们的研究首先调查了神经元激活值与模型输出之间的数值关系,并通过知识探查数据集中的神经元干预,发现了它们之间的全局线性关系。我们将这种线性关系的梯度称为神经元经验梯度(NEG),并引入了NeurGrad,这是一种准确且高效的计算NEG的方法。NeurGrad使我们能够对PLMs中的所有神经元进行定量分析,从而加深我们对神经元可控制性的理解。此外,我们探索了NEG在通过技能神经元探查跨越多种提示的语言技能方面的表示能力。通过对MCEval8k进行实验,一个涵盖各种体裁的多项选择知识基准,验证了NEG的表示能力。数据和代码已发布。