arXiv:2504.13835v1 交叉类型:
摘要: 数据质量和多样性是构建有效指令调优数据集的关键。%
随着开源指令调优数据集的不断增加可用性,从大量数据中自动选择高质量和多样性的子集是有优势的。%
现有方法通常优先考虑实例质量,并使用启发式规则来保持多样性。%
然而,缺乏对整个集合的全面视图往往会导致次优结果。%
此外,启发式规则通常关注嵌入空间内的距离或聚类,这无法准确捕捉语义空间中复杂指令的意图。%
为了弥合这一差距,我们提出了一种统一的方法来量化数据集的信息内容。该方法通过构建标签图来建模语义空间,并根据图内的信息分布来量化多样性。%
基于这种测量,我们进一步引入了一种高效的采样方法,该方法通过迭代选择数据样本来最大化语义空间的信息增益(MIG)。%
在各种数据集和基础模型上的实验表明,MIG 一直优于现有最佳方法。%
值得注意的是,使用 MIG 采样的 5% Tulu3 数据微调的模型在 AlpacaEval 上的性能提高了 5.73%,在 Wildbench 上提高了 6.89%,与全数据集训练的官方 SFT 模型性能相当。
arXiv:2504.13828v1 类别: cross
摘要:第一代大型语言模型——可以称为生成式人工智能的“第一幕”(2020-2023)——通过大规模参数和数据缩放取得了卓越的成功,但在知识延迟、浅层推理和受限的认知过程中显示出根本性的局限性。在此期间,提示工程成为我们与人工智能的主要接口,通过自然语言实现对话级别的通信。我们现在目睹了“第二幕”的出现(2024年至今),在此期间,模型正在从潜空间的知识检索系统过渡为通过测试时缩放技术构建思维的引擎。这一新的范式通过语言基础的思维与人工智能建立了心智级别的连接。在本文中,我们阐明了认知工程的概念基础,并解释了为什么这一刻对于其发展至关重要。我们通过全面的教程和优化实现系统地分解这些高级方法,使认知工程的访问民主化,使每位实践者都能参与人工智能的第二幕。我们提供了一个定期更新的测试时缩放论文集合,在GitHub存储库中:https://github.com/GAIR-NLP/cognition-engineering
arXiv:2504.13822v1 声明类型: 交叉
摘要:大规模预训练网络的出现彻底改变了人工智能领域,开启了新的可能性并实现了前所未有的性能。然而,这些模型继承了传统机器学习方法的基本局限性:它们对独立同分布(i.i.d.)假设的强烈依赖阻碍了其在动态学习场景中的适应性。我们认为,人工智能领域的下一次突破在于使模型能够高效地适应不断变化的环境——例如现实世界——在这种环境中,新数据和任务会依次到来。这一挑战定义了连续学习(CL)这一机器学习范式,专注于开发终身学习神经网络模型。一种高效适应大规模模型的方法被称为参数高效微调(PEFT)。这些方法通过进行小而高效的修改来解决适应特定数据或场景的问题,从而实现与全微调相似的性能。然而,这些技术仍然缺乏在多个任务上持续调整模型的能力,因为它们遭受灾难性遗忘的问题。在这篇综述中,我们首先概述了CL算法和PEFT方法,然后回顾了参数高效连续微调(PECFT)的最新进展。我们考察了各种方法,讨论了评估指标,并探讨了可能的未来研究方向。我们的目标是强调CL和参数高效微调之间的协同作用,引导该领域的研究人员,并为新的未来研究方向铺平道路。
arXiv:2504.13818v1 声称类型:交叉
摘要:强化学习(RL)已成为增强大型语言模型推理能力的强大范式,但面临着计算和内存需求的基本不对称性:推理几乎是并行的,内存占用 minimal,而策略更新则需要大量同步且内存密集型。为了解决这种不对称性,我们引入了PODS(Policy Optimization with Down-Sampling)框架,该框架通过并行生成大量回放但仅更新一个信息子集来策略性地分离这些阶段。在此框架内,我们开发了max-variance下采样方法,这是一种理论驱动的方法,选择具有最大多样奖励信号的回放。我们证明了这种方法具有高效的算法解决方案,并通过在GSM8K基准测试中使用max-variance下采样的GRPO与标准GRPO的实验演示,证明了PODS实现更好的性能。
arXiv:2504.13804v1 交叉类型:公共公告
摘要: 我们提出了估计和测试碰撞概率的新算法,碰撞概率是广泛应用于许多科学领域的离散分布扩展性的一个基本度量。我们描述了一个满足$(\alpha, \beta)$-局部差分隐私的算法,并且使用$\tilde{O}\left(\frac{\log(1/\beta)}{\alpha^2 \epsilon^2}\right)$样本来估计碰撞概率,其误差不超过$\epsilon$,这比之前的成果改进了$\frac{1}{\alpha^2}$个数量级。我们还提出了一种用于碰撞概率的顺序测试算法,在未知$\epsilon$的情况下,仅使用$\tilde{O}(\frac{1}{\epsilon^2})$样本,就可以区分开差距为$\epsilon$的碰撞概率值。我们的算法几乎具有最优的样本复杂度,而在实验中我们展示了它们所需要的样本数量远远少于以前的方法。
arXiv:2504.13803v1 类别: cross
摘要: 在拟人学习范式中,训练通用机器人需要通过多样化的整理才能获得的大量数据集。由于人类演示易于收集,适当地结合人类演示可以作为有价值的数据来源。然而,现有利用人类演示的方法在推断精确动作、改善实体差距以及与前沿通用机器人训练管道融合方面面临挑战。在此工作中,基于先前研究表明手持夹具可用于有效数据收集的研究成果,我们利用用户对手持夹具外观的控制能力——具体是赋予其一个独特且易于分割的颜色——来启用简单的可靠的使用 RANSAC 和 ICP 注册方法进行精确末端效应器姿态估计的应用。我们通过模拟显示,仅精确标注的人类演示可以让策略的性能平均达到使用机器人演示性能的88.1%,即使在存在固有的实体差距的情况下,当与机器人演示结合使用时,也能提升策略的性能。
arXiv:2504.13797v1 Announce Type: cross
摘要:预测旋转机械的剩余使用寿命(RUL)对于工业安全和维护至关重要,但现有方法难以应对目标领域数据稀缺以及不清晰的退化动态。我们提出了一种基于元学习和知识发现的物理感知神经网络(MKDPINN)来解决这些挑战。该方法首先通过隐藏状态映射器(HSM)将嘈杂的传感器数据映射到低维度的隐藏状态空间。随后,物理引导调节器(PGR)学习支配退化演化的未知非线性偏微分方程,将这些物理约束嵌入到PINN框架中。这将数据驱动方法与基于物理的方法相结合。该框架采用元学习,通过源领域元任务优化,以实现对新目标任务的少量样本适应。在工业数据和C-MAPSS基准测试上的实验表明,MKDPINN在泛化能力和准确性方面优于基线,证明了其在数据稀缺条件下进行RUL预测的有效性。
arXiv:2504.13791v1 生成类型: cross
摘要: 在图像合成领域取得了显著成功之后,生成对抗网络(GAN)模型也在语音合成领域取得了显著进展,通过对抗学习过程利用其适应目标数据精确分布的能力。值得注意的是,在最先进的(SOTA)GAN基语音转换(VC)模型领域,真实语音样本与GAN生成的语音样本之间的自然度存在显著差异。此外,尽管目前许多GAN模型采用单一生成器-判别器学习方法,但通过单一生成器多判别器学习方案优化目标数据分布更为有效。因此,这项研究提出了一个名为Collective Learning Mechanism-based Optimal Transport GAN(CLOT-GAN)的新GAN模型,该模型结合了多个判别器,包括深度卷积神经网络(DCNN)模型、Vision Transformer(ViT)和conformer。整合多种判别器的目的是利用集体学习机制理解梅尔频谱图中的形式元分布。同时,引入Optimal Transport(OT)损失旨在精准地弥合源数据和目标数据分布之间的差距,采用OT理论的原则。在VCC 2018、VCTK和CMU-Arctic数据集上的实验验证表明,CLOT-GAN-VC模型在客观和主观评估中均优于现有的VC模型。
arXiv:2504.13787v1 类型:跨领域
摘要:稳定性保证是一种新兴的工具,用于评估特征归因,但现有的认证方法依赖于平滑分类器,经常导致保守的保证。为了解决这些局限性,我们引入了软稳定性,并提出了一种简单、模型无关且样本高效的稳定性认证算法(SCA),该算法为任何归因提供了非平凡且可解释的保证。此外,我们展示了轻微平滑可以实现精度和稳定性之间的优雅权衡,而之前的认证方法需要更加激进的妥协。利用布尔函数分析,我们给出了稳定性在平滑下的新颖表征。我们在视觉和语言任务上评估了SCA,并展示了软稳定性的有效性及其在衡量解释方法稳健性方面的应用。
arXiv:2504.13785v1 Announce Type: 交叉
摘要: 在自动驾驶中,预测周围车辆的轨迹有助于对场景动态进行推理,并使ego车辆的安全规划成为可能。然而,现有的模型将预测视为一种基于观测信息即时预测未来轨迹的任务。随着时间的推移,下一个预测是独立于前一个预测进行的,这意味着模型在推理过程中无法纠正其错误,并会重复这些错误。为了缓解这一问题并更好地利用时间数据,我们提出了一种新颖的回顾技术。通过闭环回放训练,模型学习使用聚合反馈。给定新的观测值,它会反思之前的预测并分析其错误,以提高后续预测的质量。因此,模型可以在推理过程中学习纠正系统性错误。在nuScenes和Argoverse的全面实验中,与未进行回顾的最新基准相比,最小平均位移误差降低了高达31.9%。我们进一步展示了该技术的鲁棒性,通过演示在未检测到道路使用者的情况下更好地处理异常分布场景来证明这一点。