arXiv:2502.12511v1 自监督表示学习类型: cross
摘要: 我们提出了Myna,一种简单而有效的自监督音乐表示学习方法。该方法基于对比学习框架,引入了两项关键创新:(1) 使用视觉变换器(ViT)作为主干,应用于梅尔频谱图;(2) 一种新颖的数据增强策略——标记掩蔽,掩蔽了频谱图标记的90%。这些创新在有效性和效率方面都表现出色:(i) 标记掩蔽使每GPU的批量大小显著增加,从先前方法(CLMR、MULE)的48或120增加到4096。(ii) 通过避免传统的数据增强方法,Myna保留了音高敏感性,在调式检测等任务中提升了性能。(iii) 使用垂直补丁使模型能够更好地捕捉关键特征以进行调式检测。我们的混合模型Myna-22M-Hybrid同时处理16x16和128x2的补丁,实现了最先进的结果。在单个GPU上训练时,它在平均性能上优于MULE(62M),并且与分别在16个和64个GPU上训练的MERT-95M媲美。此外,它也超过了MERT-95M-public,成为基于可公开获取数据训练的最佳性能模型。我们发布我们的代码和模型以促进可再现性并促进未来的研究。
arXiv:2502.12509v1 交叉类型:cross
摘要:识别文档中的事件及其同指mention是理解文本语义意义的关键。现有的事件同指消解研究主要局限于新闻文章。在本文中,我们首次构建了一个针对法律领域的数据集LegalCore,该数据集已全面标注了事件及其事件同指信息。我们在该数据集上标注的法律合同文档比新闻文章长得多,平均每份文档包含约25k个词。标注结果显示,法律文件中的事件mention密集,事件mention之间既有短距离也有超长距离的同指链接。我们进一步在该数据集上对主流大规模语言模型(LLMs)进行了基准测试,用于事件检测和事件同指消解任务,并发现该数据集对最先进的开源和专有LLMs提出了重大挑战,它们的表现显著低于有监督的基本模型。我们将发布该数据集以及用于训练的代码。
arXiv:2502.12507v1 Announce Type: 横向
摘要:表格数据固有地表现出显著的特征异质性,但现有的基于变换器的方法缺乏专门的机制来处理这一特性。为弥补这一差距,我们提出了MAYA,一种基于编码器-解码器的变换器框架。在编码器中,我们设计了混合注意力(MOA),构建了多个并行的注意力分支,并在每个分支中平均特征,有效地融合了异质特征,同时限制了参数的增长。此外,我们采用合作学习,并引入动态一致性权重约束来生成更稳健的表示。在解码阶段,我们利用交叉注意力无缝地将表格数据与相应的标签特征整合。这种双重注意机制有效地捕捉了实例内和实例间的交互作用。我们在多种数据集上评估了所提出的方法,并将其与其他最先进的基于变换器的方法进行了比较。广泛实验证明,我们的模型在基于变换器的方法中,无论是表格分类任务还是回归任务,都实现了更优的效果。
arXiv:2502.12494v1 宣布类型:交叉
摘要:大型语言模型(LLMs)展示了作为人工智能代理的出色能力。然而,现有增强LLM代理能力的方法往往缺乏对数据质量的关注,导致在微调和提示工程中出现低效率和次优结果。为解决这一问题,我们提出了EDGE,一种无需金色答案即可识别有信息量样本的新型方法。我们提出了一种称为高效指导(GE)的度量标准,该标准通过衡量人类提供的指导在多轮交互任务中的影响来选择具有挑战性的样本。GE分数较低表明样本所需的专家知识未包含在指导中,从而使样本更具信息量。通过选择GE分数较低的样本,可以提高LLMs提示工程和微调过程的效率和结果。广泛的实验验证了我们方法的性能。我们的方法在HotpotQA和WebShop数据集上取得了竞争性结果,分别需要少75%和50%的数据,并且优于现有方法。我们还提供了一种关于LLM代理微调数据质量的新视角。
arXiv:2502.12489v1 交叉发布类型:多模态生成模型
摘要:视频生成音乐的增长可以归因于多模态生成模型的崛起。然而,缺乏对这一领域工作的全面综述。为填补这一空白,本文对使用深度生成AI技术的视频生成音乐进行了全面回顾,重点关注三个关键组件:视觉特征提取、音乐生成框架和条件机制。我们根据每个组件的设计对现有的方法进行了分类,阐明了不同策略的角色。在此之前,我们提供了对视频和音乐模态的细粒度分类,说明了不同类别如何影响生成管道中组件的设计。此外,我们总结了现有的多模态数据集和评估指标,并强调了该领域目前面临的挑战。
arXiv:2502.12485v1 类别: cross
摘要: 为了确保安全使用,大型语言模型(LLMs)通常会与人类定义的价值观进行对齐。然而,这种对齐往往主要依赖于英文数据,并偏向于以西方为中心的价值观,这限制了其在低资源语言环境中的有效性。在本文中,我们描述了将SEA-Lion-v2.1-Instruct(一种Llama3-8B变体)对齐以最小化新加坡英语(Singlish)中的毒性的方法。我们发现,监督微调和成对及非成对偏好上的Kahneman-Tversky优化(KTO)比直接偏好优化(DPO)更具有样本效率,并且能获得显著更好的结果。我们的分析表明,DPO隐式地施加了一个比KTO更弱的安全目标,而SFT通过提高训练稳定性来补充KTO。最后,我们引入了一个简单但新颖的KTO修改版本KTO-S,通过更好地利用梯度来提高训练稳定性。总体而言,我们提出了一种适用于低资源英文语言的安全对齐方法,在我们的Singlish基准上成功减少了99%的毒性,这种收益能够泛化到更广泛的TOXIGEN数据集,并且在标准LLM基准测试中保持强劲的表现。
arXiv:2502.12484v1 类型: cross
摘要:神经求解器在解决旅行商问题(TSP)方面展示了显著的潜力,但当前的方法面临重大挑战。基于监督学习(SL)的求解器需要大量的高质量标注数据,而基于强化学习(RL)的求解器虽然对数据的依赖较少,但在效率上经常存在不足。为了解决这些限制,我们提出了一种名为LocalEscaper的新颖弱监督学习框架,用于解决大规模TSP问题。LocalEscaper有效地结合了SL和RL的优点,能够在低质量标注的数据集上进行有效的训练。为了进一步提高解决方案的质量,我们引入了一种区域重建策略,该策略解决了现有局部重建方法中常见的局部最优问题。此外,我们提出了一种线性复杂度的注意力机制,减少了计算开销,使大规模TSP的高效求解成为可能,而不会牺牲性能。在合成数据集和真实世界数据集上的实验结果表明,LocalEscaper在性能上超过了现有的神经求解器,取得了最先进的成果。值得一提的是,它为可扩展性和效率设定了新的标杆,能够解决多达50,000个城市的TSP实例。
arXiv:2502.12481v1 交叉论文类型: cross
摘要:对象及其关系的状态分类是许多长期任务的核心,尤其是在机器人规划和操作方面。然而,可能的对象-谓词组合的组合爆炸,加上需要适应新的实际环境,使得状态分类模型能够利用少量示例泛化到新的查询成为了一种需求。为了解决这个问题,我们提出了PHIER,它利用谓词层次结构在少量示例的情况下有效泛化。PHIER使用一个以物体为中心的场景编码器、自监督损失,这些损失能够推断谓词之间的语义关系,以及一个双曲距离度量,能够捕捉层次结构;它学习一个图像-谓词对的结构化潜在空间,该空间指导状态分类查询的推理。我们在CALVIN和BEHAVIOR机器人环境中评估了PHIER,并展示了PHIER在少量示例和未知分布状态分类方面明显优于现有方法,并且在模拟到实际任务的零样本和少量样本泛化方面表现出强大的能力。我们的结果显示,利用谓词层次结构在有限数据下提高了状态分类任务的表现。
arXiv:2502.12468v1 类别: cross
摘要: LLM-as-a-Judge范式在评估生成内容方面显示出潜力,但在程序设计等需要推理的场景中缺乏可靠性。受推理模型进步及放大定律转变的启发,我们开创性地将测试时计算引入LLM-as-a-Judge中,提出了一种资源高效且基于系统2思维框架的代码正确性评估方法——MCTS-Judge。MCTS-Judge利用蒙特卡洛树搜索(MCTS)将问题分解为更简单的多视角评估。通过结合基于当前轨迹中历史行动的自我评估和基于先前展开滚动的树的上置信界的选择节点策略,MCTS-Judge平衡了全局优化和当前轨迹的精细调优。我们进一步设计了一种高精度、单元测试级别的奖励机制,以鼓励大型语言模型(LLM)进行逐行分析。在三个基准测试和五种LLM上的广泛实验表明,MCTS-Judge的有效性,使其基础模型的准确性从41%提高到80%,并以3倍 fewer tokens超过了o1系列模型。进一步的评估验证了其在逻辑、分析、全面性和整体质量方面的优越推理轨迹,同时揭示了LLM-as-a-Judge范式在测试时的放大定律。
arXiv:2502.12466v1 任务类型: cross
摘要: 等价性检查,即确定两个程序在所有可能的输入下是否产生相同输出,是软件重构、测试和优化等广泛应用的基础。我们提出了等价性检查作为评估大型语言模型(LLMs)代码推理能力的一种新方法。我们引入了EquiBench,这是一个包含2400个程序对的数据集,涵盖了四种编程语言和六种类别。这些程序对是通过程序分析、编译器调度和超优化系统地生成的,涵盖了需要超越简单的语法变化进行深入语义推理的复杂结构变换。我们对17个最先进的LLMs进行的评估显示,OpenAI o3-mini达到最高的整体准确率为78.0%。在最具挑战性的类别中,最佳准确率为62.3%和68.8%,仅略微高于二分类中50%的随机基线,表明当前模型的代码推理能力仍有显著提升的空间。