arXiv:2502.14676v1 宣布类型: cross
摘要: 运动预测允许在自主车辆或监控应用中做出更好的决策,通过对交通代理短期内未来运动的预测来实现。它被分类为行人运动预测或异质运动预测。前者利用行人相对一致的行为,但在包含骑行者和车辆等异质交通代理的真实场景中受到限制。后者通常依赖额外的类别标签信息来区分异质代理,但这种标签标注成本高昂且难以概括,无法代表同一类代理中的不同行为。在本文中,我们引入了一种基于行为伪标签的方法,仅根据其运动特征有效地捕捉行人的行为分布和异质代理的行为分布,显著提高了运动预测的准确性。为了实现该框架,我们提出了 Behavioral Pseudo-Label Informed Sparse Graph Convolution Network (BP-SGCN),该网络学习伪标签并告知轨迹预测器。在优化方面,我们提出了一种级联训练方案,在此方案中,我们首先在无监督的方式下学习伪标签,然后通过提高轨迹预测精度的方向对标签进行端到端的微调。实验结果显示,我们的伪标签有效地建模了不同的行为簇并提高了运动预测的准确性。我们提出的 BP-SGCN 在行人 (ETH/UCY, 行人仅 SDD) 和异质代理数据集 (SDD, Argoverse 1) 上均优于现有方法。
arXiv:2502.14671v1 类型: cross
摘要: 近年来,人工智能的进步催生了大型语言模型(LLMs),这些模型不仅实现了类人的性能,还与大脑的语言处理机制共享了计算原理。尽管之前的研究主要关注于使LLMs的内部表示与神经活动对齐,但我们引入了一种新的方法,利用可解释的人工智能(XAI)方法在两个领域之间建立更深层次的联系。通过归因方法,我们量化了前一个词语对LLM下一个词预测的贡献,并利用这些解释来预测参与者听相同叙述时的fMRI记录。我们的发现表明,归因方法在语言网络中稳健地预测了大脑活动,超过了早期语言区域的传统内部表示。这种对齐是分级的:早期层的解释对应于大脑语言处理的初始阶段,而后期层则与更高级的阶段对齐。此外, 对LLM下一个词预测影响更大的层——那些具有更高归因评分的层——与神经活动的对齐更为强烈。这项工作建立了人工智能和神经科学之间的双向桥梁。首先,我们证明了归因方法提供了一种强大的视角来研究语言理解的神经机制,揭示了意义是如何从先前的语境中浮现的。其次,我们提出使用大脑对齐作为评估归因方法有效性的指标,提供了一个评估其生物学合理性的框架。
arXiv:2502.14645v1 交叉类型:cross
摘要:知识编辑允许高效地将大型语言模型(LLMs)适应新的信息或更正,而无需进行全面重新训练。然而,先前的方法通常仅专注于单语言编辑或基本的多语言编辑,未能实现真正的跨语言知识同步。为了解决这一问题,我们提出了一种简单且实用的最新方法Cross-Lingual Knowledge Democracy Edit (X-KDE),旨在有效地将主导语言的知识传播到其他语言。我们的X-KDE包含两个阶段:(i) Cross-lingual Edition Instruction Tuning (XE-IT),该方法在精心策划的平行数据集上对模型进行微调,以修改范围内的知识同时保留与任务无关的信息,以及(ii) Target-language Preference Optimization (TL-PO),该方法采用高级优化技术以确保跨语言的一致性,促进更新的传递。此外,我们贡献了一个高质量的跨语言数据集,专门设计以增强跨语言知识传递。在Bi-ZsRE和MzsRE基准上的 extensive 实验显示,X-KDE 显著提高了跨语言性能,平均提高了 +8.19% 的性能,同时在单语言设置中保持了高准确性。
arXiv:2502.14637v1 类别: cross
摘要: 蛋白质主链生成在从头设计蛋白质中扮演着核心角色,并且对于许多生物学和医学应用至关重要。尽管扩散模型和流式生成模型为这一具有挑战性的任务提供了潜在的解决方案,但它们通常生成具有不良设计性的蛋白质,并且计算效率低下。在本研究中,我们提出了一种新颖的修正四元数流(ReQFlow)匹配方法,以实现快速且高质量的蛋白质主链生成。特别是,我们的方法为蛋白质链中的每个残基生成局部平移和三维旋转,将每个三维旋转表示为单位四元数,并通过指数格式中的球形线性插值(SLERP)构建其流。我们通过保证数值稳定性的四元数流(QFlow)匹配训练模型,并修正QFlow模型以加速其推理并提高生成蛋白质主链的设计性,从而提出了ReQFlow模型。实验表明,ReQFlow在蛋白质主链生成中达到了最先进的性能,同时需要较少的采样步骤,并显著减少了推理时间(例如,在生成长度为300的主链时,比RFDiffusion快37倍,比Genie2快62倍),证明了其有效性和效率。代码可在https://github.com/AngxiaoYue/ReQFlow获取。
arXiv:2502.14627v1 公告类型: cross
摘要:多语言音频-文本检索(ML-ATR)是一项具有挑战性的任务,其目标是从数据库中检索音频片段或多语言文本。然而,现有的ML-ATR方案在不同语言之间实例相似性匹配上存在不一致。我们从多语言模态对齐方向误差和权重误差两个方面理论上分析了这种不一致性,并提出了量化不一致性的理论权重误差上界。根据权重误差上界的分析,我们发现不一致性问题源于由语言随机采样引起的数据分布误差。我们提出了一种一致的ML-ATR方案,使用1-to-k对比学习和音频-英语共锚对比学习,旨在减轻由数据分布误差对ML-ATR召回率和一致性产生的负面影响。在翻译后的AudioCaps和Clotho数据集上的实验结果表明,我们的方案在八种主流语言(包括英语)的召回率和一致性指标上达到了最先进的性能。我们的代码将在https://github.com/ATRI-ACL/ATRI-ACL 可用。
arXiv:2502.14620v1 交叉发布类型:language_model
摘要:本文探讨了RWKV这一新型语言模型架构的有效性,该架构以其线性注意力机制著称,在零样本设置中生成句子嵌入。我进行了逐层分析,评估了预训练RWKV模型的不同隐藏层生成的嵌入捕获的语义相似性。性能通过微软研究同义句语料库(MRPC)数据集使用斯皮尔曼相关系数进行评估,并与基于GloVe的基线进行比较。结果显示,虽然RWKV嵌入捕捉到了一些语义相关性,但在斯皮尔曼相关系数方面,它们的表现不如GloVe基线。我还分析了推理时间和GPU内存使用情况,突出了RWKV嵌入相关的计算权衡。研究结果表明,虽然RWKV在按线性比例扩展方面可能具有优势,但在语义相似性任务中的零样本句子嵌入质量仍需进一步研究和潜在的任务特定微调,以匹配或超越更简单的基线。
arXiv:2502.14619v1 交叉公告类型
摘要:奖励模型(RMs)在使大型语言模型(LLMs)与人类偏好保持一致并提高推理质量方面发挥着核心作用。传统上,RMs 被训练以基于其正确性和连贯性对候选输出进行排序。然而,在这项工作中,我们提出了几个令人惊讶的发现,挑战了对 RM 行为的常见假设。我们的分析揭示,最先进的奖励模型优先考虑结构性一致性而非因果正确性。具体来说,移除问题陈述对手动评分影响甚微,而改变数值或打断推理流程显著影响 RM 的输出。此外,RMs 对完整的推理轨迹表现出强烈的依赖性,如果推理步骤被截断或不完整,则会显著改变奖励分配,表明 RMs 主要依赖于学习到的推理模式,而不是明确的问题理解。这些发现跨越了多种架构、数据集和任务,导致了三个关键见解:(1)RMs 主要评估连贯性而非真正的推理质量;(2)明确的问题理解在奖励分配中的作用被夸大了;(3)当前的 RMs 可能在排序响应方面更有效,而不仅仅是验证逻辑有效性。我们的结果表明,现有的奖励建模方法存在根本性的局限性,强调需要转向具有因果性意识的奖励模型,而不仅仅是基于一致性的评估。
arXiv:2502.14583v1 类型: cross
摘要:大型生成模型的成功推动了范式的转变,利用大量多源数据来提升模型能力。然而,这些源之间的相互作用在理论上仍被广泛探索。本文首次对条件生成模型中的多源训练进行了严谨分析,其中每个条件代表一个不同的数据源。具体情况而言,我们基于嵌套数建立了条件最大似然估计在平均总量变距离下的一般分布估计误差界。我们的结果表明,当源分布存在某种程度的相似性且模型足够表达能力强时,多源训练比单源训练能提供更严格的界。我们进一步通过特征描述其嵌套数,将这一广泛理论应用于条件高斯估计和深度生成模型,包括自回归和灵活的能量模型。结果强调,源的数量和源分布之间的相似性可以提高多源训练的优势。仿真和实际实验验证了我们的理论。代码可在以下链接获取:\url{https://github.com/ML-GSAI/Multi-Source-GM}。
arXiv:2502.14572v1 宣告类型: cross
摘要: 可理解的神经网络解释是更好地理解决策的基础,尤其是在输入数据包含恶意扰动的情况下。现有解决方案通常通过对抗训练来减轻扰动的影响,但在未知扰动下无法生成可理解的解释。为了解决这一挑战,我们提出了一种名为AGAIN的基于因子图的可解释神经网络,它能够在未知扰动下生成可理解的解释。与先前的解决方案不同,所提出的AGAIN直接整合逻辑规则,在推断过程中识别并纠正解释中的逻辑错误。具体而言,我们构建因子图以表达解释与类别之间的逻辑规则。通过将逻辑规则视为外生知识,AGAIN能够识别违反现实世界逻辑的不可理解的解释。此外,我们提出了一个交互式干预开关策略,在因子图的逻辑指导下纠正解释,从而克服了基于对抗训练方法的固有限制,只防御已知扰动。此外,我们通过理论证明了使用因子图的有效性,证明了解释的可理解性与因子图之间有很强的相关性。在三个数据集上进行了广泛的实验,实验结果表明 AGAIN 在与最先进的基线相比时表现出更优的性能。
arXiv:2502.14560v1 交叉公告类型:
摘要: 直接偏好优化(DPO)已成为一种有前途的方法,用于使大型语言模型与人类偏好对齐。虽然先前的工作主要从目标函数的角度扩展了DPO,但我们相反地从很大程度上被忽视但至关重要的数据选择角度改进了DPO。具体来说,我们通过提出一种新颖的边际最大化原则来解决由噪声数据引起的参数收缩问题,该原则用于DPO训练的数据集策展。为了准确估计用于数据选择的边际,我们提出了一种双重边际引导的方法,该方法同时考虑外部奖励边际和隐式DPO奖励边际。大量实验表明,我们的方法在显著降低成本的同时提高了性能。更为值得注意的是,通过仅使用Ultrafeedback数据集的10%,我们的方法在AlpacaEval 2.0基准上针对各种Llama和Mistral系列模型实现了3%至8%的性能提升。此外,我们的方法无缝应用于迭代DPO,在使用25%在线数据的情况下获得了约3%的性能改进,同时进一步减少了训练时间。这些结果突显了数据选择策略在推进偏好优化方面的潜力。