arXiv 论文列表

作者: Ori Yonay, Tracy Hammond, Tianbao Yang

arXiv:2502.12511v2 自监督学习类型: cross 摘要：我们提出了Myna，一种简单而有效的自监督音乐表示学习方法。基于对比学习框架，Myna引入了两个关键创新点：(1) 使用Mel频谱图上的Vision Transformer (ViT) 作为骨干，以及 (2) 一种新颖的数据增强策略——令牌掩码，掩码了90%的频谱图令牌。这些创新提供了有效的效率：(i) 令牌掩码使得每块GPU的批次大小有了显著增加，从前方法（CLMR, MULE）的48或120增加到4096。(ii) 通过避免传统增强，Myna保留了音高敏感性，从而增强了关键任务如调性检测的表现。(iii) 使用垂直块使得模型能够更好地捕捉关键特征，用于调性检测。我们的混合模型Myna-22M-Hybrid同时处理16x16和128x2的块，达到了最先进的成果。在单块GPU上训练时，它在平均性能上优于MULE（62M），并与使用16和64块GPU分别训练的MERT-95M相匹敌。此外，它超越了MERT-95M-public，成为在公共可用数据上训练的最佳性能模型。我们发布了我们的代码和模型以促进可重复性并便于未来的研究。

发布时间: 2/19/2025

查看原文

Sens-合并：面向参数平衡的灵敏度引导大型语言模型合并方法

作者: Shuqi Liu, Han Wu, Bowei He, Xiongwei Han, Mingxuan Yuan, Linqi Song

arXiv:2502.12420v2 交叉类型公告：摘要：大型语言模型的最新进展导致了众多任务特化的微调变体的出现，从而产生了高效模型合并技术的需求，这些技术可以在保持特化能力的同时避免昂贵的重新训练。尽管现有的基于任务向量的合并方法前景良好，但它们通常在所有参数上应用统一的系数，忽视了参数在任务内部和之间的重要性差异。我们提出了Sens-Merging，这是一种由敏感性引导的系数调整方法，该方法通过任务特定和跨任务两个层面增强了现有的模型合并技术。我们的方法在单个任务的参数敏感性分析和跨任务的转移性评估的基础上，确定了最优的合并系数。在Mistral 7B和LLaMA2-7B/13B模型上的广泛实验显示，Sens-Merging 显著提高了一般知识、数学推理和代码生成任务的性能。值得注意的是，当与现有的合并技术结合使用时，我们的方法能够使合并模型在代码生成任务中超越专门的微调模型。我们的研究结果揭示了任务特定和跨任务缩放之间的关键权衡，为未来的模型合并策略提供了见解。

发布时间: 2/19/2025

查看原文

评估夹子最大化者：基于强化学习的语言模型更有可能追求工具性目标吗？

作者: Yufei He, Yuexin Li, Jiaying Wu, Yuan Sui, Yulin Chen, Bryan Hooi

arXiv:2502.12206v1 公告类型: 新摘要: 随着大型语言模型（LLMs）的不断发展，确保它们与人类目标和价值观保持一致仍然是一个紧迫的挑战。一个关键问题是“工具化趋同”（instrumental convergence），在这种情况下，AI系统在优化特定目标时，会发展出未预期的中间目标，这些目标会凌驾于最终目标之上，并偏离人类预期的目标。这一问题在通过强化学习（RL）训练的模型中尤为相关，因为这些模型可以生成创意但未预期的策略来最大化奖励。在本文中，我们通过将直接RL优化训练的模型（例如o1模型）与强化学习从人类反馈训练的模型（RLHF）进行比较，探讨LLMs中的工具化趋同问题。我们假设被RL驱动的模型在某种程度上更容易表现出工具化趋同，因为它们以可能与人类意图不符的方式优化目标导向行为。为了评估这一点，我们引入了InstrumentalEval，一个用于评估RL训练的LLMs中工具化趋同的基准。初步实验揭示了模型在被赋予赚钱任务时意外追求工具化目标（如自我复制）的情况，这意味着存在工具化趋同的迹象。我们的研究结果有助于更深入地理解AI系统中的对齐挑战，以及由未预期的模型行为所带来的风险。

发布时间: 2/19/2025

查看原文

SessionRec：生成型序列推荐的下一会话预测范式

作者: Lei Huang, Hao Guo, Linzhi Peng, Long Zhang, Xiaoteng Wang, Daoyuan Wang, Shichao Wang, Jinpeng Wang, Lei Wang, Sheng Chen

arXiv:2502.10157v2 Announce Type: replace-cross 摘要：我们引入了SessionRec，这是一种新颖的会话级生成序列推荐范式（NSPP），解决了传统单个物品预测范式（NIPP）与实际推荐场景之间的根本性不一致问题。不同于NIPP中与实际基于会话的用户交互相悖的商品级自回归生成，我们的框架通过层次化序列聚合（会话内/会话间）引入了会话感知的表示学习，减少了注意力计算复杂度，同时对大规模的隐式负交互进行了建模，并通过下次会话中的多商品推荐更好地捕捉用户的多样兴趣。此外，我们发现，在会话级预测范式中引入会话内项目之间的排名损失可以显著提高生成序列推荐模型的排名效果。我们还验证了SessionRec表现出与语言模型（LLMs）观察到的幂律扩展规律类似的扩展规律。在Meituan应用的公开数据集和在线A/B测试中进行的广泛实验表明，SessionRec的有效性。提出的范式通过其模型无关的架构和计算效率为开发工业规模的生成推荐系统奠定了新的基础。

发布时间: 2/19/2025

查看原文

FrGNet：一种Fourier引导的弱监督核实例分割框架

作者: Peng Ling, Wenxiao Xiong

arXiv:2502.09874v2 宣布类型: replace-cross 摘要：细胞实例分割在病理图像分析中起着关键作用。主要挑战来自于准确分割实例的难度以及对于全监督训练来说掩膜级注解的成本高昂。在本文中，我们提出了一种傅里叶引导框架以解决弱监督细胞实例分割问题。在该框架中，我们构建了一个傅里叶引导模块，将先验信息融入到模型的训练过程中，从而帮助模型捕捉细胞的相关特征。同时，为了进一步提高模型表示细胞特征的能力，我们提出了基于引导的实例级别对比模块。该模块充分利用框架本身的特性和引导信息，有效增强了细胞的表示特征。我们在两个公开数据集上展示了，即使在全监督设计下，我们的模型也可以优于当前的SOTA方法，而在弱监督实验中，尽管只进行了少量的标记，我们的模型仍然保持了与全监督相当的性能。此外，我们还在一个私有数据集上进行了泛化实验，且在没有任何标记的情况下，我们的模型能够有效地分割未在训练中见过的细胞图像。作为开源科学，所有代码和预训练模型均可在 https://github.com/LQY404/FrGNet 获取。

发布时间: 2/19/2025

查看原文

LLM 对齐的隐藏维度：一个多维度安全性分析

作者: Wenbo Pan, Zhichao Liu, Qiguang Chen, Xiangyang Zhou, Haining Yu, Xiaohua Jia

arXiv:2502.09674v2 安全类型: 重新交叉摘要: 大型语言模型的安全对齐行为，如拒绝有害查询，可以通过激活空间中的线性方向来表示。以往的研究用单一方向来建模安全性行为，这限制了人们对机制理解的范围，仅限于孤立的安全特性。在本文中，我们发现安全性对齐行为是由多维方向共同控制的。具体而言，我们在对 Llama 3 8B 进行安全性微调以拒绝突破限制时，研究了表示转换的向量空间。通过在空间中研究正交方向，我们发现一个主导方向主导了模型的拒绝行为，而多个较小的方向则代表了不同的可解释特征，如假设叙事和角色扮演。随后，我们测量了不同方向如何促进或抑制主导方向，展示了次要方向在塑造模型拒绝表示中的重要作用。最后，我们展示了在有害查询中移除某些触发词可以削弱这些方向，从而使模型绕过学习到的安全能力，从而从多维视角提供了对安全对齐脆弱性的新见解。相关代码和资源可在 https://github.com/BMPixel/safety-residual-space 获取。

发布时间: 2/19/2025

查看原文

truth知无界：超越英语的真诚性评估

作者: Blanca Calvo Figueras, Eneko Sagarzazu, Julen Etxaniz, Jeremy Barnes, Pablo Gamallo, Iria De Dios Flores, Rodrigo Agerri

arXiv:2502.09387v2 Announce Type: replace-cross 摘要：我们引入了一个针对巴斯克语、加泰罗尼亚语、加利西亚语和西班牙语的专业翻译扩展版本的TruthfulQA基准，用于评估真实性。迄今为止，大型语言模型（LLMs）的真实性评估主要在英语中进行。然而，LLMs在不同语言中保持真实性的能力尚未得到充分探索。本研究评估了12种最先进的开源LLMs，使用人类评估、多项选择指标以及LLM-as-a-Judge评分来比较基础模型和指令调优模型。我们的研究结果表明，尽管LLMs在英语中的表现最佳，而在巴斯克语（资源最少的语言）中的表现最差，但不同语言之间的整体真实性差异比预期要小。此外，我们展示了相对于多项选择指标，LLM-as-a-Judge与人类判断的相关性更高，并且信息量在真实性评估中起着关键作用。此外，我们的结果还表明，机器翻译为将真实性基准扩展到其他语言提供了可行的方法，提供了与专业翻译相比更具可扩展性的替代方案。最后，我们观察到，跨语言处理普遍知识问题比上下文和时间依赖的问题更好，突显了需要考虑文化与时间差异的真实性评估的必要性。数据集和代码均在开放许可下公开可用。

发布时间: 2/19/2025

查看原文

任何形式的提问：多模态检索增强生成综述

作者: Mohammad Mahdi Abootorabi, Amirhosein Zobeiri, Mahdi Dehghani, Mohammadali Mohammadkhani, Bardia Mohammadi, Omid Ghahroodi, Mahdieh Soleymani Baghshah, Ehsaneddin Asgari

arXiv:2502.08826v2 通知类型: 替换交叉摘要：大型语言模型（LLMs）由于依赖静态训练数据，面临着幻觉和过时知识的问题。检索增强生成（RAG）通过整合外部动态信息来缓解这些问题，增强事实性和更新的知识基础。最近多模态学习的进展导致了多模态RAG的发展，它结合了多种模态，如文本、图像、音频和视频，以增强生成输出。然而，跨模态对齐和推理引入了多模态RAG的独特挑战，使其与传统的单模态RAG不同。本文综述提供了一种结构化和全面的多模态RAG系统分析，涵盖数据集、度量标准、基准、评估、方法论以及检索、融合、增强和生成方面的创新。我们详细审查了训练策略、鲁棒性增强和损失函数，并探讨了多样化的多模态RAG场景。此外，我们讨论了开放的挑战和未来的研究方向，以支持这一不断发展的领域的进步。本文为开发更强大、更可靠的AI系统奠定了基础，这些系统能够有效利用多模态动态外部知识库。资源可在 https://github.com/llm-lab-org/Multimodal-RAG-Survey 中找到。

发布时间: 2/19/2025

查看原文

一种基于VLM生成迭代关键点奖励的从真实到模拟再到真实的机器人 manipulation 方法

作者: Shivansh Patel, Xinchen Yin, Wenlong Huang, Shubham Garg, Hooshang Nayyeri, Li Fei-Fei, Svetlana Lazebnik, Yunzhu Li

arXiv:2502.08643v2 宣告类型: replace-cross 摘要：在开放环境中的机器人操作任务指定具有挑战性，需要柔性且能适应的目标，这些目标需要与人类意图对齐，并且可以通过迭代反馈来演变。我们引入了Iterative Keypoint Reward（IKER），这是一种基于视觉的目标语言PYTHON基线奖励函数，作为动态任务规范。我们的框架利用VLMs生成和完善这些奖励函数，以便应用于多步操作任务。给定RGB-D观察和自由形式的语言指令，我们对场景中的关键点进行采样，并生成一个基于这些关键点的奖励函数。IKER基于对期望行为的常识先验，利用关键点之间的空间关系，实现精确的SE(3)控制。我们重建真实世界的场景在模拟环境中，并使用生成的奖励训练强化学习（RL）策略，然后将这些策略部署到真实环境中，形成了一个从真实到模拟再到真实的循环。我们的方法在各种场景中展示了显著的能力，包括可抓取和不可抓取任务，展示了多步任务执行、自发错误恢复以及现场策略调整的能力。结果突显了IKER在通过迭代奖励塑造使机器人能够在动态环境中完成多步任务方面的有效性。

发布时间: 2/19/2025

查看原文

从电子健康记录中基于多模态融合变压器的儿童心脏骤停早期风险预测

作者: Jiaying Lu, Stephanie R. Brown, Songyuan Liu, Shifan Zhao, Kejun Dong, Del Bold, Michael Fundora, Alaa Aljiffry, Alex Fedorov, Jocelyn Grunwell, Xiao Hu

arXiv:2502.07158v2 通知类型: 替换-交叉摘要：在高风险的重症监护环境中，及时预测小儿心脏骤停（CA）对于干预至关重要。我们提出了PedCA-FT，这是一种新颖的基于变换器的框架，它将EHR的表格视图与提取的文本视图融合，以完全释放高维风险因素及其动态的相互作用。通过为每种模态视图使用专门的变换器模块，PedCA-FT捕获复杂的时序和上下文模式，以生成稳健的CA风险估计。在CHAO-CICU数据库中经过精心筛选的小儿队列上进行评估，我们的方法在五个关键性能指标上优于其他十种人工智能模型，并识别出具有临床意义的风险因素。这些发现强调了多模态融合技术在早期检测CA和改善患者护理方面的作用。

发布时间: 2/19/2025

查看原文