arXiv 论文列表

基于流量的领域随机化以学习和序列化机器人技能

作者: Aidan Curtis, Eric Li, Michael Noseworthy, Nishad Gothoskar, Sachin Chitta, Hui Li, Leslie Pack Kaelbling, Nicole Carey

arXiv:2502.01800v1 宣告类型：交叉摘要：强化学习中的域随机化是一项成熟的提高在仿真中训练的控制策略鲁棒性的技术。通过在训练过程中随机化环境属性，学习到的策略可以在随机化维度上对不确定性产生鲁棒性。虽然环境分布通常需要手动指定，但在本文中，我们探讨了通过熵正则化奖励最大化的方法自动发现采样分布的途径。该方法使用归一化流神经采样分布。我们证明了这种架构比学习更简单、参数化的采样分布的方法更具灵活性和鲁棒性，这一点在六个仿真实例和一个现实世界的机器人领域得到了验证。最后，我们探讨了如何结合有先验值函数的学习到的采样分布，用于不确定性感知的多步骤操作规划中的异常分布检测。

发布时间: 2/5/2025

查看原文

水下CLIP：一种水下场景分析的视觉-语言基础模型

作者: Basit Alawode, Iyyakutti Iyappan Ganapathi, Sajid Javed, Naoufel Werghi, Mohammed Bennamoun, Arif Mahmood

arXiv:2502.01785v1 类型: cross 摘要: 保护水生生物多样性对于减轻气候变化的影响至关重要。水生场景理解在辅助海洋科学家进行决策过程中扮演着关键角色。本文介绍了AquaticCLIP，这是一种专为水生场景理解设计的新颖对比语言-图像预训练模型。AquaticCLIP 提出了一个新的无监督学习框架，该框架在水生环境中对齐图像和文本，从而实现诸如分割、分类、检测和物体计数等任务。通过利用大型的无监督水下图像-文本配对数据集，而无需地面真实注释，我们的模型丰富了现有的水生领域视觉-语言模型。为此，我们利用包括 YouTube、Netflix、国家地理 (NatGeo) 等在内的异质资源，构建了一个包含 200 万水下图像-文本配对数据集。为了微调 AquaticCLIP，我们提出了一种提示引导的视觉编码器，该编码器通过可学习的提示逐步聚合补丁特征，而视觉导向的机制通过引入视觉上下文增强语言编码器。该模型通过对比预训练损失进行优化，以对齐视觉和文本模态。在多种水下计算机视觉任务的零样本设置中，AquaticCLIP 达到了显著的性能提升，并在鲁棒性和可解释性方面优于现有方法。我们的模型为水下环境中视觉-语言应用设定了新的基准。AquaticCLIP 的代码和数据集已公开发布在 GitHub 上，地址为 xxx。

发布时间: 2/5/2025

查看原文

解释 Grokking：一种统计现象

作者: Breno W. Carvalho, Artur S. d'Avila Garcez, Lu\'is C. Lamb, Em\'ilio Vital Brazil

arXiv:2502.01774v1 Announce Type: cross 摘要：理解或延迟泛化是一种引人入胜的学习现象，其中测试集损失仅在模型训练集损失收敛之后才会急剧下降。这挑战了对深度学习网络训练动力学的传统理解。在本文中，我们形式化并研究了理解这一现象，强调其出现的关键因素是在训练数据和测试数据之间发生了分布转移。我们引入了两个专门旨在分析理解的合成数据集。一个数据集研究了有限采样的影响，另一个则研究了转移学习在理解中的作用。通过控制子类别的不平衡采样来诱导分布转移，我们系统地重现了这一现象，表明尽管小样本量与理解密切相关，但它并非其原因。相反，小样本量作为一种方便的机制，用于实现所需的分布转移。我们还展示了当类别形成一个对称映射时，理解可以通过模型从相似的类别或子类别中学习来解释。与之前的工作认为理解主要源自高正则化和稀疏数据不同，我们展示了它也可以在密集数据和最少的超参数调优的情况下发生。我们的研究加深了对理解的理解，并为未来训练过程中的停止标准制定了更好的路径。

发布时间: 2/5/2025

查看原文

关于鲍勃·迪伦：一种计算视角

作者: Prashant Garg

arXiv:2502.01772v1 类型:交叉摘要:卡斯·桑斯廷的文章《论鲍勃· Dylan》描述了 Dylan 的“去常规化”风格——一种不断拒绝符合期待和不断重塑其音乐和歌词身份的倾向。在这篇论文中，我通过从 1962 年到 2012 年 Dylan 的歌词进行大规模的计算分析，扩展了桑斯廷的观察。利用 o3-mini-high（一个大型语言模型），我从歌词中提取概念间的关系，并构建有向知识图谱来捕捉 Dylan 的主题结构。然后，我量化了时间上情感、比喻表达、主题多样性和网络复杂性方面的变化。结果表明，Dylan 的歌词越来越依赖于比喻，情感模式呈现出演变的趋势，并在衡量关键概念网络中心性变化方面显示出越来越高的去常规化。我还发现，关于运动、抗议和神话意象的引用，在 Dylan 职业生涯中已知的阶段中呈现出波动变化，反映了他艺术的动态和不可预测性。这些发现不仅深化了我们对桑斯廷论题的实证理解，而且还引入了一种新的计算方法来分析艺术家的演化，为文化与创造性变化的研究提供了更广泛的适用性。

发布时间: 2/5/2025

查看原文

汉明注意力蒸馏：二值化键和查询以实现高效长上下文变换器

作者: Mark Horton, Tergel Molom-Ochir, Peter Liu, Bhavna Gopal, Chiyue Wei, Cong Guo, Brady Taylor, Deliang Fan, Shan X. Wang, Hai Li, Yiran Chen

arXiv:2502.01770v1 类型:交叉摘要：具有扩展上下文窗口的预训练变压器模型在大规模运行时非常昂贵，往往由于其高强度的计算和内存要求而限制了其实用部署。在本文中，我们引入了一种新颖的框架——汉明注意力蒸馏（HAD），该框架将注意力机制中的键和查询二值化，以实现显著的效率提升。通过将键和查询转换为{-1, +1}向量，并用高效的汉明距离计算替代点积操作，我们的方法大幅减少了计算开销。此外，我们还结合了注意力矩阵稀疏化，以修剪影响较小的激活，进一步减少了处理长上下文序列的成本。尽管采用了这些激进的压缩策略，但我们的蒸馏方法仍保留了较高的表示能力，相比之前的变压器二值化方法，其准确性得到了显著提升。我们对HAD在一系列任务和模型上进行了评估，包括GLUE基准、ImageNet和QuALITY，展示了在各种二值化变压器中居于领先地位的同时，显著降低了长上下文推理的计算成本。我们还在自定义硬件模拟中实现了HAD，与标准注意力机制的自定义硬件实现相比，展示了更优越的性能特征。HAD在GLUE上的性能损失仅为$\mathbf{1.78}\%$，相比最先进的二值化工作，性能损失降低了$9.08\%$；在ImageNet上的性能损失仅为$\mathbf{2.5}\%$，相比最先进的二值化工作，性能损失降低了$12.14\%$。此外，与标准注意力机制相比，HAD在目标自定义硬件上实现了$\mathbf{79}\%$的面积减少和$\mathbf{87}\%$的功率减少。

发布时间: 2/5/2025

查看原文

鲁棒的联邦微调方法：通过LoRA的交替优化

作者: Shuangyi Chen, Yuanxin Guo, Yue Ju, Harik Dalal, Ashish Khisti

arXiv:2502.01755v1 宣传类型: cross 摘要: 参数高效微调(PEFT)方法如低秩适应(LoRA)通过减少计算和通信成本来优化联邦训练。我们提出了一种使用交替优化来微调LoRA适配器的联邦框架RoLoRA。我们的方法强调学习上下投影矩阵的重要性，以增强表达能力和稳健性。我们通过理论分析和广泛的实验来展示RoLoRA相较于之前方法的优势，这些方法要么生成不完美的模型更新，要么限制模型的表达能力。我们在简化线性模型上提供了理论分析，以展示在LoRA中学习下投影矩阵和上投影矩阵的重要性。我们对玩具神经网络MNIST以及大语言模型如RoBERTa-Large和Llama-2-7B在多样化的任务中进行了广泛的实验评估，以展示RoLoRA相较于其他方法的优势。

发布时间: 2/5/2025

查看原文

大型语言模型的耦合 token 生成评估

作者: Nina Corvelo Benz, Stratis Tsirtsis, Eleni Straitouri, Ivi Chatzi, Ander Artola Velasco, Suhas Thejaswi, Manuel Gomez-Rodriguez

arXiv:2502.01754v1 类别: cross 摘要:当前最先进的大型语言模型依赖于随机化来响应提示。作为直接的结果，同一提示在一个模型中如果被多次询问，可能会得到不同的响应。在本文中，我们主张在评估和排名大型语言模型时应控制其运行所依赖的随机化。我们的起点是开发一个耦合自回归生成的因果模型，这使得不同的大型语言模型能够使用相同的随机源采样响应。基于我们的因果模型，我们首先展示，在基于基准数据集的评估中，耦合自回归生成与传统的自回归生成得出相同的结论，但使用可证明较少的样本。然而，我们进一步展示，在基于人工两两比较的评估中，即使样本无限多，耦合和传统的自回归生成仍然可能会导致不同模型的排名存在差异。这表明，在现有的评估协议中，一个模型相对于其他模型的表面优势可能并非 genuine，而是由于生成过程中固有的随机性造成的。为了证实和支持我们的理论结果，我们使用了来自 Llama 家族的几个大型语言模型进行了实验。我们发现，在流行的 MMLU 基准数据集中涉及的多个知识领域，耦合自回归生成相比于传统的自回归生成需要多达40%更少的样本来得出相同的结论。此外，使用 LMSYS Chatbot Arena 平台的数据，我们发现，一个强大的大型语言模型对提示的两两比较得到的胜率在耦合和传统的自回归生成中有所不同。

发布时间: 2/5/2025

查看原文

理解 vs. 学习：相同特征，不同编码

作者: Dmitry Manning-Coe, Jacopo Gliozzi, Alexander G. Stapleton, Edward Hirst, Giuseppe De Tomasi, Barry Bradlyn, David S. Berman

arXiv:2502.01739v1 类型：交叉摘要：归纳推理通常能达到与普通“稳定”学习相似的损失。我们询问这些不同的学习路径——归纳推理与普通训练——是否会导致学习到的模型存在根本性的差异。为此，我们在两个任务中比较了每种路径训练的模型的特征、压缩性和学习动力学。我们发现，归纳推理和稳定训练的模型学习相同的特征，但这些特征的编码效率可能存在很大的差异。尤其是，我们在稳定训练中发现了新颖的“压缩性区间”，在此区间内模型损失与压缩性之间出现了线性的权衡关系，而在归纳推理中则不存在这种现象。在这种区间内，我们可以实现比基础模型高25倍的压缩因子，以及比归纳推理中实现的压缩性高出5倍的压缩因子。然后，我们追踪模型特征和压缩性在整个训练过程中的发展。我们展示了归纳推理中的模型发展依赖于任务，并且峰值压缩性在归纳推理平台期之后立即达到。最后，引入了新的信息几何度量来表明，经历归纳推理的模型在信息空间中的路径是直线。

发布时间: 2/5/2025

查看原文

ACECODER：通过自动化测试案例合成战胜程序员RL

作者: Huaye Zeng, Dongfu Jiang, Haozhe Wang, Ping Nie, Xiaotong Chen, Wenhu Chen

arXiv:2502.01718v1 Announce Type: cross 摘要：最近的编码器模型的进步主要由监督微调（SFT）驱动，而强化学习（RL）的潜力尚未充分探索，主要是由于代码领域缺乏可靠的奖励数据/模型。在这篇文章中，我们通过利用自动大规模测试案例合成来解决这一挑战，以增强代码模型的训练。具体来说，我们设计了一个管道，从现有的代码数据生成广泛的（问题，测试案例）对。使用这些测试案例，我们基于采样程序的通过率构建偏好对，并使用Bradley-Terry损失训练奖励模型。在最优32采样的情况下，它为Llama-3.1-8B-Ins带来了平均10分的提升，为Qwen2.5-Coder-7B-Ins带来了5分的提升，使得7B模型与DeepSeek-V2.5的236B模型相当。此外，我们使用这两种奖励模型以及测试案例通过奖励进行强化学习，结果在HumanEval、MBPP、BigCodeBench和LiveCodeBench（V4）上都取得了一致的改善。值得注意的是，我们遵循R1风格的训练，直接从Qwen2.5-Coder-base开始，证明了我们的RL训练在HumanEval-plus上可以提高超过25%，在MBPP-plus上提高6%，仅有80步优化步骤。我们认为我们的结果突显了在编码器模型中强化学习的巨大潜力。

发布时间: 2/5/2025

查看原文

过程监督强化学习在代码生成中的应用

作者: Yufan Ye, Ting Zhang, Wenbin Jiang, Hua Huang

arXiv:2502.01715v1 类型: cross 摘要: 基于结果监督的强化学习策略已被证明能够有效提升大型语言模型（LLMs）在代码生成任务中的性能。虽然基于过程监督的强化学习在处理多步骤推理任务方面表现出巨大的潜力，但其在代码生成任务中的有效性仍然不够充分并且解释不足。主要障碍在于构建高质量过程监督数据的资源密集型性质，这需要大量的人力专业知识和计算资源。为应对这一挑战，我们提出了一种“语句变异/重构-编译和执行验证”的策略：通过教师模型逐行变异和重构代码，并利用编译器执行结果自动标记每一行，从而生成逐行的过程监督数据，这对于训练过程监督的奖励模型至关重要。训练好的奖励模型随后被整合到PRLCoder框架中，并在多个基准测试上进行了实验验证。实验结果表明，基于过程监督的强化学习方法显著优于仅依赖结果监督的方法。值得注意的是，在处理复杂的代码生成任务时，基于过程监督的强化学习方法显示出明显的优势，确保了代码生成过程的完整性和生成结果的正确性。

发布时间: 2/5/2025

查看原文