为了在交互驱动的任务中诱导大型语言模型 (LLM) 产生期望的行为,指令微调阶段通常使用下一个词预测 (NTP) 损失函数,在指令-响应对上训练 LLM。为了提高指令微调性能,以往的研究往往强调需要更高质量的监督微调 (SFT) 数据集,这通常涉及使用专有 LLM 进行昂贵的数据过滤或由人工标注者进行劳动密集型的数据生成。然而,这些方法并没有充分利用数据集的内在属性,导致计算和人工成本高昂,从而限制了可扩展性和性能提升。本文提出了 SFTMix,一种新颖的配方,它超越了传统的 NTP 范式,提升了指令微调性能,而无需精心策划的数据集。观察到 LLM 在语义表示空间中表现出不均匀的置信度,我们认为不同置信度水平的示例在指令微调过程中应该扮演不同的角色。基于这一见解,SFTMix 利用训练动态识别不同置信度水平的示例,然后应用基于 Mixup 的正则化来缓解对置信示例的过度拟合,同时传播监督信号以改进对相对不置信示例的学习。这种方法使 SFTMix 能够在广泛的指令遵循和医疗保健领域特定的 SFT 任务中显著优于 NTP,证明了其对不同 LLM 家族的适应性以及对任何规模数据集的可扩展性。全面的消融研究进一步验证了 SFTMix 设计选择的稳健性,强调了其在更广泛的自然语言处理应用中始终如一地提高不同 LLM 和数据集的性能的通用性。
如今,解释人工智能 (AI) 的决策在 AI 领域是一个重大挑战,尤其是在医学和法律等敏感场景中。然而,解释决策背后的理由也是人类推理中的一个主要问题,因为证明做出某个决策的“原因”非常重要。例如,住院医师不仅需要提供(可能是正确的)诊断,还需要解释他们如何得出某个结论。因此,开发新工具来帮助住院医师训练他们的解释技能是教育领域人工智能的核心目标。在本文中,我们遵循这一方向,并根据我们的了解,提出了第一个用于医学问答的多语言数据集,其中临床案例的正确和错误诊断都附带医生撰写的自然语言解释。这些解释已通过手动标注了论证成分(即前提、主张)和论证关系(即攻击、支持),从而形成了多语言 CasiMedicos-Arg 数据集,该数据集包含四种语言(英语、西班牙语、法语、意大利语)的 558 个临床案例及其解释,其中我们标注了 5021 个主张、2313 个前提、2431 个支持关系和 1106 个攻击关系。最后,我们展示了竞争性基线在针对论证挖掘任务的这个具有挑战性的数据集上的表现。
我们提出了一种新颖的无锚对比学习 (AFCL) 方法,该方法利用我们提出的相似性-正交性 (SimO) 损失。我们的方法最小化了一个半度量判别损失函数,该函数同时优化了两个关键目标:减少相似输入的嵌入之间的距离和正交性,同时最大化不同输入的这些度量,从而促进更细粒度的对比学习。由 SimO 损失驱动的 AFCL 方法在嵌入空间中创建了一个纤维束拓扑结构,形成了特定于类的、内部凝聚但正交的邻域。我们在 CIFAR-10 数据集上验证了我们方法的有效性,提供了可视化结果,证明了 SimO 损失对嵌入空间的影响。我们的结果说明了不同、正交的类邻域的形成,展示了该方法创建结构良好的嵌入的能力,这些嵌入平衡了类分离和类内可变性。这项工作为理解和利用学习表示在各种机器学习任务中的几何特性开辟了新的途径。
大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法...
本文提出了一种新的方法,在不牺牲零样本多模态任务性能的情况下,增强预训练视觉和语言模型(VLMs)的组合理解能力。传统的微调方法通常以降低多模态能力为代价来提高组合推理能力,这主要是因为使用了全局硬负(HN)损失,该损失对比了图像和文本的全局表示。这种全局HN损失会将与原始文本高度相似的HN文本推向模型,从而损害模型的多模态表示。为了克服这一局限性,我们提出了细粒度选择性校准CLIP(FSC-CLIP),它集成了局部硬负损失和选择性校准正则化。这些创新提供了细粒度的负监督,同时保留了模型的表示完整性。我们在组合性和多模态任务的不同基准上进行了广泛的评估,结果表明,FSC-CLIP不仅在组合性方面达到了最先进模型的水平,而且还保留了强大的多模态能力。代码可在以下地址获取:https://github.com/ytaek-oh/fsc-clip。
弗雷谢视频距离(FVD)是广泛用于评估视频生成分布质量的指标。然而,其有效性依赖于关键假设。我们的分析揭示了三个显著的局限性:(1)膨胀3D卷积网络(I3D)特征空间的非高斯性;(2)I3D特征对时间扭曲的敏感性不足;(3)可靠估计所需的样本量不切实际。这些发现削弱了FVD的可靠性,并表明FVD作为视频生成评估的独立指标存在不足。在对各种指标和主干架构进行广泛分析后,我们提出了JEDi,即JEPA嵌入距离,它基于从联合嵌入预测架构中提取的特征,使用具有多项式核的最大均值差异进行度量。我们在多个开源数据集上的实验清楚地表明,它是一个优于广泛使用的FVD指标的替代方案,只需要16%的样本就能达到其稳定值,同时平均提高了与人类评估的一致性34%。
大型语言模型 (LLMs) 和视觉语言模型 (VLMs) 的进步促使最近的研究引入了视觉-语言-动作 (VLA) 模型,作为机器人操控任务的集成解决方案。这些模型以摄像头图像和自然语言任务指令作为输入,直接生成机器人执行指定任务的控制动作,极大地提高了决策能力和与人类用户的交互能力。然而,VLA 模型的数据驱动特性,加上其缺乏可解释性,使得确保其有效性和鲁棒性成为一项具有挑战性的任务。这突出了对可靠测试和评估平台的需求。为此,在本工作中,我们提出了 LADEV,一个专门为评估 VLA 模型而设计的全面高效的平台。我们首先提出了一种语言驱动方法,该方法可以从自然语言输入中自动生成模拟环境,从而减少了对人工调整的需求,并显著提高了测试效率。然后,为了进一步评估语言输入对 VLA 模型的影响,我们实施了一种释义机制,该机制可以生成多种自然语言任务指令进行测试。最后,为了加快评估过程,我们引入了一种批处理方式,用于对 VLA 模型进行大规模测试。使用 LADEV,我们对几种最先进的 VLA 模型进行了实验,证明了其作为评估这些模型的工具的有效性。我们的结果表明,LADEV 不仅提高了测试效率,而且为评估 VLA 模型建立了坚实的基础,为开发更智能、更先进的机器人系统铺平了道路。
机器翻译 (MT) 评估指标自动评估翻译质量。最近,研究人员将 MT 指标应用于各种新的用例,例如数据过滤和翻译重新排序。然而,大多数 MT 指标将评估结果作为难以解释的标量分数返回,这给做出明智的设计选择带来了挑战。此外,MT 指标的能力历来是通过与人工判断的相关性来评估的,尽管这种方法有效,但它未能提供对指标性能的直观洞察,特别是在新的指标用例方面。为了解决这些问题,我们引入了一个可解释的 MT 指标评估框架。在这个框架内,我们评估了指标在两个场景中的表现,这两个场景作为数据过滤和翻译重新排序用例的代理。此外,通过使用精确率、召回率和 F 分数来衡量 MT 指标的性能,我们比与人工判断的相关性提供了更清晰的洞察力。最后,我们对按照直接评估+标量质量指标 (DA+SQM) 指南手动整理数据的可靠性表示担忧,报告了与多维质量指标 (MQM) 注释的明显低一致性。
为了让航天器安全着陆或在靠近天体时导航,需要对地表进行视觉检测和跟踪。现有的方法依赖于与预先收集的基于补丁的特征进行模板匹配,这些特征的获取成本很高,而且限制了感知能力。虽然最近的文献集中于现场检测方法,以增强导航和操作自主性,但仍然需要鲁棒的描述。在本工作中,我们探索了度量学习作为轻量级特征描述机制,并发现当前的解决方案无法解决类间相似性和多视角观察几何。我们将此归因于视图感知注意机制,并引入了多视角注意正则化(MAR)来约束跨多个特征视图的通道和空间注意,从而规范化注意焦点的“是什么”和“在哪里”。我们全面分析了带有和不带有 MAR 的许多现代度量学习损失,并证明了地形特征识别性能提高了 85% 以上。我们还引入了 Luna-1 数据集,该数据集包含来自 NASA 任务数据的月球陨石坑地标和参考导航帧,以支持未来对这一困难任务的研究。Luna-1 和源代码可在 https://droneslab.github.io/mars/ 上公开获取。
尽管基于扩散的文本到音乐 (TTM) 方法取得了进展,但高效、高质量的生成仍然是一个挑战。我们引入了 Presto!,这是一种通过减少采样步骤和每步成本来加速基于分数的扩散 Transformer 推理的方法。为了减少步骤,我们为 EDM 系列扩散模型开发了一种新的基于分数的分布匹配蒸馏 (DMD) 方法,这是第一个用于 TTM 的基于 GAN 的蒸馏方法。为了降低每步成本,我们对最近的层蒸馏方法进行了简单但有效的改进,该方法通过更好地保留隐藏状态方差来提高学习效果。最后,我们将我们的步骤和层蒸馏方法结合在一起,形成了一种双方面的解决方案。我们分别评估了我们的步骤和层蒸馏方法,并证明每种方法都产生了最佳的性能。我们的组合蒸馏方法可以生成高质量的输出,并提高多样性,使我们的基础模型加速了 10-18 倍(32 秒单声道/立体声 44.1kHz 的延迟为 230/435 毫秒,比同类 SOTA 快 15 倍)——据我们所知,这是最快的、高质量的 TTM。音频示例可在 https://presto-music.github.io/web/ 上找到。