arXiv 论文列表

作者: Hengran Zhang, Keping Bi, Jiafeng Guo, Xiaojie Sun, Shihao Liu, Daiting Shi, Dawei Yin, Xueqi Cheng

arXiv:2504.05216v2 宣告类型: replace-cross 摘要：密集检索是信息检索（IR）中的一个关键任务，并且是重新排序等下游任务的基础。最近，大规模语言模型（LLMs）展示了令人信服的语义理解能力，吸引了研究密集检索的研究人员的兴趣。LLMs 作为解码器类型的生成模型，在语言生成方面表现出色，但由于缺乏对后续标记的关注，无法很好地建模全局信息。受到查询似然（Query Likelihood, QL）模型的经典基于词的语言建模方法在IR中的启发，我们尝试通过QL最大化充分利用LLMs的生成能力。然而，我们并不是通过QL估计进行文档排名，而是引入了一个辅助任务，即QL最大化，以获得更好的对比学习区分检索者的基础。我们将我们的模型命名为LLM-QL。为了在QL建模过程中将全局文档语义压缩为一个向量，LLM-QL具有两个主要组成部分，注意力停止（AS）和输入污染（IC）。AS 在文档的结束标记之前阻止预测标记对前一个标记的注意。IC 在预测过程中遮掩输入文档的一部分标记。在MSMARCO上的实验表明，LLM-QL可以显著优于其他基于LLM的检索器，并且使用LLM-QL估计的QL进行排名 far 超过了基于词的QL。

发布时间: 4/22/2025

查看原文

遵循价值的低语：揭秘大模型中价值导向行为的神经机制

作者: Ling Hu, Yuemei Xu, Xiaoyang Gu, Letao Han

arXiv:2504.04994v2 通知类型: replace-cross 摘要: 尽管大型语言模型（LLMs）表现出色，但它们在编码价值观的驱动下可能会表现出无意的偏见和有害行为，这强调了理解其背后的价值机制的紧迫性。然而，当前的研究主要通过外部响应来评估这些价值，重点关注人工智能安全，缺乏可解释性，并未能在实际情境中评估社会价值。在本文中，我们提出了一种名为ValueExploration的新框架，旨在从神经元层面探索LLMs中受行为驱动的国家社会价值观机制。作为案例研究，我们集中在中华社会价值观上，并首先构建了C-voice，一个大规模双语基准，用于识别和评估LLMs中的中华社会价值观。利用C-voice，我们随后根据激活差异识别并定位负责编码这些价值观的神经元。最后，通过禁用这些神经元，我们分析了模型行为的转变，揭示了价值观如何影响LLM决策的内部机制。通过对四个代表性LLMs进行的大量实验验证了我们框架的有效性。基准和代码将可供使用。

发布时间: 4/22/2025

查看原文

WeiDetect：基于韦布尔分布的网络入侵检测系统中联邦学习对抗投毒攻击的防御方法

作者: Sameera K. M., Vinod P., Anderson Rocha, Rafidha Rehiman K. A., Mauro Conti

arXiv:2504.04367v2 通告类型: replace-cross 摘要：在数据扩张的时代，确保数据隐私变得越来越关键，这给传统的基于AI的应用带来了重大挑战。此外，物联网设备的日益采用引入了重大的网络安全挑战，使传统的网络入侵检测系统（NIDS）在应对不断变化的威胁时变得无效。隐私担忧和监管限制也限制了这些系统的部署。联邦学习（FL）作为一种前景光明的解决方案出现，它允许分散的模型训练，同时保持数据隐私，以解决这些问题。然而，尽管采用了隐私保护技术，FL系统仍然容易受到对抗性攻击的影响。此外，在FL场景中，客户端之间的数据分布并不是异构的。我们提出WeiDetect，这是一种双阶段、服务器端的防御机制，用于基于FL的NIDS以检测恶意参与者，以应对这些挑战。在第一阶段，使用验证数据集评估本地模型，生成验证分数。然后使用威布尔分布分析这些分数，识别并移除恶意模型。我们进行了实验，以评估我们的方法在不同攻击环境下的有效性。我们的评估包括两个流行的集合数据集，CIC-Darknet2020 和 CSE-CIC-IDS2018，在非IID数据分布下进行了测试。我们的研究结果表明，WeiDetect 在对抗最新防御方法方面表现出色，将目标类召回率提高多达70%，并将全局模型的F1分数提高1%至14%。

发布时间: 4/22/2025

查看原文

NAACL2025 教程：大型语言模型的适应性研究

作者: Zixuan Ke, Yifei Ming, Shafiq Joty

arXiv:2504.03931v2 宣告类型: replace-cross 摘要：本教程旨在应对对超出通用语言模型静态能力的模型日益增长的需求，通过概述动态、领域特定和任务适应性语言模型适应技术。虽然通用语言模型在多种任务上展示了强大的泛化能力，但在如金融、医疗和低资源语言代码生成等专业化领域中，它们往往难以表现良好。此外，它们的静态性质限制了它们随世界变化而进化的能力，而且它们通常非常庞大，使其在大规模部署时 impractical 和成本高昂。因此，自从语言模型诞生以来，语言模型的适应性吸引了大量关注，并对行业和学术界都具有核心重要性。企业注重为特定用户群提供服务，而学术界可以从小巧但强大的语言模型中获益良多。为解决这一差距，本教程旨在提供语言模型适应技术的概述。我们从数据和模型的角度开始介绍语言模型适应。然后强调与其他技术相比，评估指标和基准的不同之处。在确立了问题之后，我们将探讨各种适应技术。我们将适应技术分为两大类。第一类是参数知识适应，重点关注更新语言模型内的参数知识。我们还将讨论实时适应技术，包括模型编辑，这使得语言模型能够在生产环境中动态更新。第二类是半参数知识适应，其目标是通过检索增强生成（RAG）和基于代理系统等技术更新语言模型参数，以便更好地利用外部知识或工具。

发布时间: 4/22/2025

查看原文

CHARMS：自主驾驶中推理与运动风格化的认知层次 Agents

作者: Jingyi Wang, Duanfeng Chu, Zejian Deng, Liping Lu, Pan Zhou

arXiv:2504.02450v2 通知类型: 替换-交叉摘要: 为了解决自主驾驶仿真中行为智能有限和车辆行为模型过于简化的挑战，本文提出了一种认知分层代理用于推理和运动风格化 (CHARMS)。利用 Level-k 博弈理论，我们通过强化学习预训练和监督微调来建模人类驾驶员的决策。这使得生成的模型能够表现出多样的行为，从而提高了仿真中周围车辆的智能和真实性。基于这一能力，我们进一步开发了一种情景生成框架，该框架利用泊松认知层次理论通过泊松和二项式抽样来控制不同驾驶风格车辆的数量分布。实验结果表明，CHARMS 既能够作为ego车辆做出智能决策，又能够生成多样且真实的驾驶场景。CHARMS 的代码将在 https://github.com/WUTAD-Wjy/CHARMS 释放。

发布时间: 4/22/2025

查看原文

将视频语言模型扩展至10K帧via分层差异性蒸馏

作者: Chuanqi Cheng, Jian Guan, Wei Wu, Rui Yan

arXiv:2504.02438v3 通知类型: 替换-交叉摘要：长视频处理在视觉-语言模型（VLMs）中从根本上提出了挑战，因为处理扩展的时间序列需要极高的计算成本。现有的标记修剪和特征合并方法往往会牺牲关键的时间依赖性或稀释语义信息。我们引入了微分蒸馏，这是一种系统地保留与任务相关的信息同时抑制冗余性的原则方法。基于这一原则，我们开发了ViLaMP，这是一种层次化的视频-语言模型，通过两种关键机制以“混合精度”处理长达一小时的视频：（1）微分关键帧选择，最大化查询的相关性同时在帧级别保持时间上的独特性；（2）微分特征合并，在补丁级别保留查询相关的特征。因此，ViLaMP 在关键帧中保留了完整的信息，同时将非关键帧简化为其最显著的特征，类似于混合精度训练。广泛的实验表明，ViLaMP 在四个视频理解基准测试中表现出色，特别是在长视频内容上。值得注意的是，ViLaMP 能在一个 NVIDIA A100 GPU 上处理长达 10K 帧的超长视频，同时在保持最先进的性能的情况下取得了显著的计算效率。

发布时间: 4/22/2025

查看原文

多智能体语言模型系统中的自我资源分配

作者: Alfonso Amayuelas, Jingbo Yang, Saaket Agashe, Ashwin Nagarajan, Antonis Antoniades, Xin Eric Wang, William Wang

arXiv:2504.02051v2 通知类型: replace-cross 摘要：随着大语言模型（LLMs）作为代理的发展，越来越多的人对将多个代理连接到多代理系统中以同时完成任务产生了兴趣，重点关注它们在任务分配和协调中的作用。本文探讨了LLMs如何有效地在多个代理之间分配计算任务，考虑了成本、效率和性能等因素。在本文中，我们解决了几个关键问题，包括LLMs作为协调者和计划者的有效性，并将它们在任务分配和协调中的有效性进行了比较。我们的实验表明，LLMs在资源分配任务中实现了高度的有效性和准确性。我们发现，在处理并发动作方面，计划者方法优于协调者方法，从而提高了效率并更好地利用了代理。此外，我们展示了提供关于工作者能力的显式信息如何增强计划者的分配策略，特别是在处理次优工作者时。

发布时间: 4/22/2025

查看原文

信息增益并非全需

作者: Ludvig Ericson, Jos\'e Pedro, Patric Jensfelt

arXiv:2504.01980v3 公告类型: 替换-交叉摘要：移动机器人领域的自主探索往往需要在两个目标之间进行权衡：最大化环境覆盖和最小化总路径长度。在广泛使用的信息增益范式中，探索是依据观测的预期值进行引导的。虽然在预算受限的环境中这种方法非常有效，即只能进行有限的观测次数，但在质量受限的场景中，即机器人必须以一定的置信度或质量完全探索环境时，这种方法就无法与实际目标相匹配。在这种情况下，总信息增益实际上已经固定，因此每步都试图最大化信息增益可能会导致不高效的、贪婪的行为和不必要的回溯。本文认为，在质量受限的探索中，信息增益不应作为优化目标。相反，它应该用来过滤可行的候选动作。我们提出了一种新的启发式方法——距离优势，它基于接近机器人和远离其他前沿区域之间的权衡来选择候选前沿。该启发式方法的目标是在机器人有机会高效访问这些孤立区域之前，优先探索这些区域，从而减少未来的曲折路径。我们通过模拟环境中的经典基于前沿的探索方法和最大信息增益方法来评估我们的方法。结果表明，距离优势在各种环境中显著减少了总路径长度，无论是有先验地图预测还是没有。我们的研究结果挑战了更准确的信息增益估计能够提高性能的假设，并为质量受限的探索范式提供了一个更合适的替代方案。

发布时间: 4/22/2025

查看原文

DreamActor-M1：整体、表达性强且稳健的人像图像动画生成与混合引导

作者: Yuxuan Luo, Zhengkun Rong, Lizhen Wang, Longhao Zhang, Tianshu Hu, Yongming Zhu

arXiv:2504.01724v3 通告类型: replace-cross 摘要: 虽然基于图像的人体动画方法实现了逼真的身体和面部运动合成，但在细粒度的整体可控性、多尺度适应性和长期时间连贯性方面仍存在关键差距，这导致了其表达能力和鲁棒性较低。我们提出了一种基于扩散变换器（DiT）的框架，DreamActor-M1，该框架通过混合指导克服了这些局限性。在动作指导方面，我们的混合控制信号结合了隐式的面部表示、3D 头球和3D 身体骨架，实现了对面部表情和身体运动的稳健控制，同时生成富有表现力且保持身份的动画。在尺度适应方面，为了处理从肖像到全身视图的各种身体姿态和图像尺度，我们采用了一种使用不同分辨率和尺度的数据进行渐进式训练的策略。在外观指导方面，我们将来自连续帧的动作模式与补充视觉参考相结合，确保在复杂运动中未知区域的长期时间连贯性。实验表明，我们的方法优于现有的最新技术，提供了肖像、上半身和全身生成富有表现力的结果，并保持了鲁棒的长期一致性。项目页面: https://grisoon.github.io/DreamActor-M1/。

发布时间: 4/22/2025

查看原文

提升MoE效率：一种受合作约束的路由（C2R）策略，以实现更好的专家并行设计

作者: Mohan Zhang, Pingzhi Li, Jie Peng, Mufan Qiu, Tianlong Chen

arXiv:2504.01337v2 宣告类型: 替换-交叉摘要：专家混合（Mixture-of-Experts, MoE）在保持几乎恒定的计算成本的同时成功地扩大了模型规模。通过使用门控网络路由输入令牌，MoE 选择性地激活专家网络子集来处理相应的令牌嵌入。然而，在实践应用中，由于两个关键原因，MoE 的效率实现具有挑战性：专家激活的不平衡，这会导致在模型或专家并行过程中存在大量空闲时间，以及不足的容量利用；以及在系统层面由于专家并行时生成的大量专家路由组合而产生的巨大通信开销。以往的工作通常将其描述为由门控网络倾向于优先处理某些专家而非其他专家所构成的负载不平衡问题，或归因于静态执行，这种方式无法适应运行时的动态专家工作负载。在本文中，我们从一种全新的角度出发，从 MoE 路由策略的更高层次视角和分析出发：专家间的合作与专业化，一些专家倾向于与其他人广泛合作（合作），而另一些则更可能仅与特定专家小组进行激活（专业化）。我们的实验表明，大多数专家倾向于过度合作，导致了不必要的重复通信开销。为此，我们提出了一种新的协作约束路由（C2R）策略，以鼓励更具专业性的专家群体，并提高专家利用率，同时提供了一种高效实现 MoE 的方法，以进一步利用专家专业化。在十项下游 NLP 基准测试中，我们在 LLaMA-MoE 和 Qwen-MoE 上分别实现了 0.51% 和 0.33% 的平均性能提升，并减少了 GPU 之间的 all2all 通信成本，从而在现有最优方案 MegaBlocks 上额外带来了 20%-30% 的总运行时间节省。

发布时间: 4/22/2025

查看原文