arXiv:2502.01772v1 类型: cross
摘要: 卡斯·桑斯坦的散文《关于鲍勃·迪伦》描述了迪伦的“脱故布新”风格——一种持续拒绝符合预期并热衷于重新塑造其音乐和歌词身份的态度。在本文中,我通过从1962年到2012年对迪伦的歌词进行大规模的计算分析,扩展了桑斯坦的观察。利用o3-mini-high(一个大规模语言模型),我从歌词中提取概念到概念之间的关系,并构建了捕捉迪伦主题结构的有向知识图谱。然后,我量化了随时间变化的情绪、比喻表达、主题多样性和网络复杂性。结果显示,迪伦的歌词越来越依赖于比喻,情绪模式逐渐演变,并表现出增强的“脱故布新”现象——在这里,衡量方法是关键概念在网络中心性方面逐渐增大的方差。我还发现,有关运动、抗议和神话意象的引用,随着迪伦职业生涯中众所周知的阶段波动,反映出他的艺术动态且不可预测的特性。这些发现不仅加深了我们对桑斯坦论点的经验理解,还引入了一种新颖的计算方法来分析艺术家的发展,为文化与创意变革的研究提供了更广泛的适用性。
arXiv:2502.01770v1 类型: cross
摘要: 带有扩展上下文窗口的预训练变压器模型在大规模运行时非常昂贵,常常由于其高计算和内存要求而限制了其实用部署。在本文中,我们提出了哈明注意蒸馏(HAD),这是一种新颖的框架,通过二值化注意机制中的键和查询来实现显著的效率提升。通过将键和查询转换为{-1, +1}向量,并用高效的哈明距离计算替换点积操作,我们的方法大幅减少了计算开销。此外,我们结合注意力矩阵稀疏化来剪除低影响激活,进一步降低了处理长上下文序列的成本。
尽管采用了这些激进的压缩策略,我们的蒸馏方法仍然保持了较高的表示能力,相比于之前的方法,产生了显著提高的精度。我们在包括GLUE基准、ImageNet和QuALITY等一系列任务和模型上评估了HAD,展示了在二值化变压器中的顶级性能,同时极大地降低了长上下文推理的成本。
我们用自定义硬件模拟实现了HAD,展示了其在自定义硬件实现标准注意机制方面的优越性能特征。HAD在GLUE上的性能损失仅为$\mathbf{1.78}\%$,而最先进的二值化工作中的性能损失为$9.08\%$;在ImageNet上的性能损失仅$\mathbf{2.5}\%$,而最先进的二值化工作中的性能损失为$12.14\%$。同时,相比于其标准注意力的对应版本,HAD的目标自定义硬件面积减少了$\mathbf{79}\%$,功耗减少了$\mathbf{87}\%$。
arXiv:2502.01755v1 交叉公告类型
摘要:参数高效微调(PEFT)方法如LoRA低秩适应通过减少计算和通信成本来优化联邦训练。我们提出了RoLoRA,这是一种使用交替优化来微调LoRA适配器的联邦框架。我们的方法强调了学习上投影和下投影矩阵的重要性,以增强表达能力和鲁棒性。我们通过理论分析和大量的实验展示了RoLoRA相较于其他方法的优势,这些方法要么生成不完美的模型更新,要么限制模型的表达能力。我们通过对简化线性模型的理论分析展示了在LoRA中学习下投影和上投影矩阵的重要性。我们还在MNIST上的小型神经网络和罗伯塔-大型、Llama-2-7B等大型语言模型上进行了广泛的实验评估,展示了RoLoRA相较于其他方法的优势。
arXiv:2502.01754v1 宣布类型: cross
摘要:目前最先进的大规模语言模型依赖于随机化来响应提示。作为直接的结果,如果模型被多次询问相同的提示,其响应可能会不同。在本文中,我们argue应控制大型语言模型运行背后所依赖的随机化来进行评估和排名。我们的出发点是对耦合自回归生成进行因果建模,这使得不同大型语言模型能够使用相同来源的随机性来采样响应。基于我们的因果模型,我们首先表明,在基于基准数据集的评估中,耦合自回归生成与传统的自回归生成导致相同的结论,但使用了可证明更少的样本。然而,我们进一步表明,在基于(人类)成对比较的评估中,即使是无限数量的样本,耦合和传统的自回归生成也会出人意料地导致不同的排名。这表明,在现有评估协议中,一个模型相对于其他模型的显着优势可能并非真正的,而是由于生成过程固有的随机性所混淆的。为了说明并补充我们的理论结果,我们在Llama家族中的几个大型语言模型上进行了实验。我们发现,在流行的MMLU基准数据集中涉及多个知识领域的情况下,耦合自回归生成需要多达40%更少的样本来达到与传统的自回归生成相同的结论。此外,我们还使用LMSYS聊天机器人竞技场平台的数据发现,强大的大型语言模型对提示的胜利率在耦合和传统的自回归生成下是不同的。
arXiv:2502.01739v1 类型: cross
摘要: Grokking通常能达到与普通、“稳定”的学习相似的损失。我们探讨了这两种不同的学习路径——Grokking与普通训练——是否会导致学得模型的内在差异。为此,我们在两个任务中比较了通过每种路径训练的模型的功能、压缩性和学习动态。我们发现,Grokking训练和稳定训练的模型学习相同的功能,但这些功能的编码效率可能有很大差异。特别是,在稳定训练中,我们发现了一种新颖的“压缩性区域”,在这种区域内,模型的损失与压缩性之间出现了线性 trade-off,而在Grokking中没有这种现象。在这一区域内,我们可以实现是基模型25倍的压缩因子,以及是Grokking中实现压缩因子5倍的压缩。然后,我们追踪模型功能和压缩性在训练过程中的发展。我们表明,Grokking中模型的发展是任务依赖的,并且在Grokking平台期后立即达到最大的压缩性。最后,引入了新的信息几何度量,表明经历Grokking的模型在信息空间中沿着直线移动。
arXiv:2502.01718v1 交叉类型:cross
摘要:近年来,大多数编码器模型的进步主要由监督微调(SFT)驱动,而强化学习(RL)的潜力尚未得到充分探索,主要原因在于代码领域缺乏可靠的奖励数据/模型。本文通过利用自动大规模测试案例合成来应对这一挑战,以增强代码模型的训练。具体来说,我们设计了一个流程,在现有代码数据的基础上生成大量的(问题,测试案例)对。使用这些测试案例,基于采样程序的通过率构建偏好对,以布拉德利-泰利损失(Bradley-Terry loss)训练奖励模型。Llama-3.1-8B-Ins模型在最佳32采样中平均提高了10个点,Qwen2.5-Coder-7B-Ins模型提高了5个点,使得7B模型的表现与其236B的DeepSeek-V2.5相当。此外,我们使用奖励模型和测试案例通过奖励进行强化学习,这在HumanEval、MBPP、BigCodeBench和LiveCodeBench(V4)上产生了持续的改进。值得注意的是,我们采用R1风格的训练模式,直接从Qwen2.5-Coder-base开始,显示了我们的RL训练在HumanEval-plus和MBPP-plus上的优化步数仅为80步时分别提高了25%和6%。我们认为,我们的结果突显了强化学习在编码器模型中的巨大潜力。
arXiv:2502.01715v1 类别: cross
摘要: 基于结果监督的强化学习策略已被证明能够有效提升大型语言模型(LLMs)在代码生成中的性能。虽然基于过程监督的强化学习在处理多步推理任务方面展现了巨大的潜力,但其在代码生成方面的有效性仍然很大程度上未被探索和合理化。主要障碍来自于构建高质量过程监督数据的资源密集性,这需要大量的人工专业知识和计算资源。针对这一挑战,我们提出了一种“语句变异/重构-编译和执行验证”的策略:通过教师模型逐行变异和重构代码,利用编译执行结果自动标注每行代码,从而产生逐行的过程监督数据,这对训练一个过程监督的奖励模型至关重要。训练好的奖励模型随后被集成到PRLCoder框架中,并在多个基准上进行实验验证。实验结果表明,基于过程监督的强化学习显著优于仅依赖结果监督的方法。特别是在处理复杂的代码生成任务时,基于过程监督的强化学习显示出明显的优越性,确保代码生成过程的完整性和生成结果的正确性。
arXiv:2502.01714v1 Announce Type: 横向交叉
摘要:随着代理人工智能(Agent AI)和由大型语言模型(LLM)驱动的多智能体系统(LLM-MAS)的发展,负责任且可靠的操作系统的重要性愈发凸显。工具如 LangChain 和检索增强生成技术扩展了 LLM 的能力,通过增强的知识检索和推理能力,使其更深层次地集成到MAS中。然而,这些进步引入了关键挑战:LLM 代理表现出固有的不可预测性,其输出的不确定性会在交互中累积,威胁到系统的稳定性。为了应对这些风险,结合以人为本的设计方法和主动动态监督是必不可少的。这种方法增强了传统的被动监督,通过促进智能体间一致的沟通和有效的系统治理,使 MAS 更高效地实现预期目标。
arXiv:2502.01708v1 交叉公告类型
摘要:本文研究了一起作为机器学习系统的机器学习元素集合和这些元素之间的关系集合。我们关注的关系包括代数运算、二元关系以及可以进行品类推理的可组合二元关系。两个机器学习系统的机器学习系统转换是对这些系统的映射,且保持我们关注的关系。通过商或聚类、可表示泛函以及Yoneda嵌入,给出了机器学习系统的转换,这些转换通过机器学习示例进行了强调和讨论。机器学习系统的共轭关系,作为特殊的机器学习系统转换环,提供了解决问题的最佳方式。机器学习系统转换通过2-细胞和自然变换互相连接和比较。从由共轭关系生成的单子提供的普遍性质和代数结构中,可以获取新的洞见和结构。
arXiv:2502.01707v1 宣布类型: 交叉
摘要:盲去雾图像质量评估(BDQA),旨在在没有参考信息的情况下准确预测去雾图像的视觉质量,对于图像去雾算法的评估、比较和优化至关重要。现有的基于学习的BDQA方法已经取得了显著的成功,但DQA数据集的小规模限制了它们的性能。为了解决这一问题,本文提出将预训练在大规模图像-文本对上的对比语言-图像预训练(CLIP)适应到BDQA任务中。具体而言,受到人类视觉系统根据层次化特征理解图像这一事实的启发,我们将去雾图像的全局和局部信息作为CLIP的输入。为了准确地将去雾图像的输入层次化信息映射到质量得分,我们通过提示学习微调CLIP的视觉分支和语言分支。在两个真实的DQA数据集上的实验结果表明,我们提出的CLIP-DQA方法在现有BDQA方法上实现了更准确的质量预测。代码可在https://github.com/JunFu1995/CLIP-DQA获得。