arXiv 论文列表

作者: Ivo Gollini Navarrete, Nicolas Mauricio Cuadrado, Jose Renato Restom, Martin Tak\'a\v{c}, Samuel Horv\'ath

arXiv:2502.11450v1 交叉类型: cross 摘要: 裁剪提供了缓解部署大型深度神经网络(DNNs)相关成本和环境影响的有希望的解决方案。传统方法依赖于计算成本高昂的训练模型或耗时的剪枝-重新训练循环，这在资源受限的环境中削弱了其实用性。为了解决这一问题，我们基于LeCun等人（1989）提出的显著性原理和Lee等人（2018）提出的连接敏感性原理，解决了一次性剪枝神经网络(NNs)的问题，该剪枝发生在训练初始阶段。我们引入了基于经验费雪信息矩阵(FIM)对角线的费雪-泰勒敏感性(FTS)，这是一种计算成本低廉且高效的剪枝准则，提供了将一阶和二阶信息结合以识别模型结构上重要的参数的可行替代方案。虽然FIM-海森矩阵等价性仅在收敛且最大化似然性的模型中成立，但最近的研究(Karakida等人，2019)表明，在初始状态下，FIM捕获了过参数化NNs中参数的重要几何信息，为我们的方法提供了基础。最后，我们在实验中证明，数据依赖性剪枝方法的重要限制之一层崩溃，通过在初始化后单个训练周期内进行剪枝，可以轻易克服。我们对ResNet18和VGG19在CIFAR-10和CIFAR-100上进行了实验，这是剪枝研究中广泛使用的基准。我们的方法在一次性PBT中实现了与最先进的技术相当的性能，即使在极端稀疏条件下也是如此。我们的代码已向公众开源。

发布时间: 2/18/2025

查看原文

编辑能提供定位的证据吗？

作者: Zihao Wang, Victor Veitch

arXiv:2502.11447v1 Announce Type: cross 摘要：对大型语言模型的可解释性研究的基本抱负是将“局部化”语义上有意义的行为定位到LLM内的特定组件中。存在各种启发式方法来找到LLM内的候选位置。一旦找到了候选的局部化位置，可以通过编辑相应位置的内部表示并检查这种编辑是否导致与该局部化位置的语义解释一致的模型行为来对其进行评估。我们在这里要解决的问题是：此类编辑提供的证据有多强？为了评估局部化，我们需要评估在特定位置进行的最优干预的效果。关键的新技术工具是一种将LLM对齐技术适应以找到此类最优局部化编辑的方法。拥有这种工具后，我们给出一个例子，其中基于编辑的局部化证据看起来很强，但实际上局部化明显失败了。事实上，我们发现，在随机局部化位置进行的最优编辑可能与对整个模型进行对齐同样有效。综合来看，我们的结果表明，仅仅观察局部化编辑诱导出特定行为的变化并不提供这些位置实际上编码目标行为的有力证据。

发布时间: 2/18/2025

查看原文

多轮多模态问题澄清以增强对话理解

作者: Kimia Ramezan, Alireza Amiri Bavandpour, Yifei Yuan, Clemencia Siro, Mohammad Aliannejadi

arXiv:2502.11442v1 交叉公告类型摘要：会话查询澄清能够通过互动对话让用户细化其搜索查询，从而提高搜索效果。传统的方法依赖于基于文本的澄清问题，这些方法往往难以捕捉复杂用户的偏好，尤其是那些涉及视觉属性的偏好。虽然最近的研究探索了结合图像和文本的单回合多模态澄清方法，但这些方法并没有完全支持用户意图在多次回合中的逐步细化。鉴于此，我们引入了多回合多模态澄清问题（MMCQ）任务，该任务将文本和视觉模态结合起来，在多回合对话中细化用户查询。为了促进这一任务，我们创建了一个名为ClariMM的大规模数据集，包含超过13000个回合互动和33000个包含多模态澄清问题的问题-答案对。我们提出了Mario，一个检索框架，采用两阶段排名策略：初始检索使用BM25，然后是一个多模态生成重新排名模型，该模型结合了会话历史中的文本和视觉信息。我们的实验表明，多回合多模态澄清方法优于单一模态和单回合方法，MRR提高了12.88%。对于更长的交互，这些增益尤为显著，这表明逐步细化对复杂查询的价值。

发布时间: 2/18/2025

查看原文

基于行的有效稀疏微调

作者: Cen-Jhih Li, Aditya Bhaskara

arXiv:2502.11439v1 Announce Type: cross 摘要：微调是将基础模型，例如大型语言模型适应下游任务的重要步骤。为了使这一步骤对预算有限的用户提供更多便利，开发高效且内存消耗小的微调方法至关重要。稀疏微调（SFT）和低秩适应（LoRA）是为解决这一问题而出现的两种框架，并且已经被广泛应用于实际中。在此项工作中，我们开发了一种新的SFT框架，该框架基于神经网络剪枝的思想。总体而言，我们首先使用网络剪枝中的特征重要性度量（特别是我们使用结构剪枝方法）来识别“重要”的神经元/节点，然后通过限制涉及这些神经元的权重来进行微调。通过在常见语言任务上的实验，我们证明了我们的方法在不增加训练时间复杂性和实现复杂性的前提下，显著提高了SFT的内存效率，同时能达到与LoRA及其变体的领先方法相当的准确性。

发布时间: 2/18/2025

查看原文

通过对抗-合作异构代理强化学习学习灵巧的双臂接物技能

作者: Taewoo Kim, Youngwoo Yoon, Jaehong Kim

arXiv:2502.11437v1 机器人捕捉类型：双臂摘要：传统的机器人捕捉主要集中在单手系统上，这些系统在处理大型或复杂物体方面能力有限。相比之下，双臂捕捉提供了显著提高灵巧性和物体处理能力的潜力，但同时也带来了协调和控制上的新挑战。在本文中，我们提出了一种新的框架来利用异构智能体强化学习（HARL）学习双臂灵巧捕捉技能。我们的方法引入了一种对抗性的奖励方案，其中投掷智能体通过调整投掷速度来增加捕捉的难度，而捕捉智能体则学习在这些不断变化的条件下协调双手捕捉物体。我们在使用15种不同物体的仿真环境中评估了该框架，展示了其在处理多样化物体时的稳健性和灵活性。我们的方法在15种不同物体上相对单智能体基线实现了约2倍的捕捉奖励提升。

发布时间: 2/18/2025

查看原文

基于反事实一致性提示的大语言模型相对时间理解

作者: Jongho Kim, Seung-won Hwang

arXiv:2502.11425v1 时序类型: 横向摘要: 尽管大型语言模型（LLMs）具有先进的能力，但它们的时间推理能力仍然欠发达。此前的研究已经指出了这一局限性，特别是在理解事件时保持时间一致性方面。例如，模型经常混淆如“之前”和“之后”这类互斥的时间关系，并作出不一致的预测。在这项工作中，我们通过提出一种新颖的反事实提示方法来解决LLMs中的时间不一致性问题。我们的方法生成反事实问题并施加集体约束，增强了模型的一致性。我们在多个数据集上评估了我们的方法，通过有效解决时间不一致性，显著提高了事件排序和隐含事件的时间常识理解能力。

发布时间: 2/18/2025

查看原文

无需配对标签数据：基于无人机视角地理定位的端到端自我监督框架

作者: Zhongwei Chen, Zhao-Xu Yang, Hai-Jun Rong

arXiv:2502.11381v1 宣告类型：交叉摘要：无人机视角地理定位（UVGL）的目标是通过检索最相似的GPS标记的卫星图像来确定无人机的确切位置。然而，现有的方法主要依赖于监督学习范式，需要标注配对数据进行训练，这导致了大量的标注成本，并阻碍了大规模部署。为克服这一限制，我们提出了Dynamic Memory-Driven and Neighborhood Information Learning（DMNIL）网络，这是一种面向无人机视角地理定位的轻量级端到端自监督框架。DMNIL框架采用基于双路径聚类的对比学习架构作为其基础，以建模视图内的结构关系，增强特征一致性和区分性。此外，我们提出了一种动态记忆驱动的分层学习模块，以逐步发掘局部和全局信息，加强多级特征关联，提高模型的鲁棒性。为了缩小无人机和卫星视图之间的领域差距，我们设计了一种信息一致的进化学习机制，系统地探索视图内隐含的相关性以及跨视图领域之间的关系，最终构建了一个统一的跨视图特征表示空间。在三个基准数据集（University-1652、SUES-200 和 DenseUAV）上的大量实验表明，DMNIL在与最先进的监督方法相比时，能够保持计算效率的同时实现具有竞争力的性能。值得注意的是，这种优越性是在不依赖配对训练数据的情况下实现的，突显了该框架在实际部署中的实用性。代码将于不久后发布。

发布时间: 2/18/2025

查看原文

CCJA: 语境一致的监狱突破攻击以对齐大型语言模型

作者: Guanghao Zhou, Panjia Qiu, Mingyuan Fan, Cen Chen, Mingyuan Chu, Xin Zhang, Jun Zhou

arXiv:2502.11379v1 安全公告类型: 交叉摘要: 尽管对大型语言模型（LLMs）进行了显式的对齐努力，它们仍然可能被利用触发未预期的行为，这一现象称为“逃逸”。当前的逃逸攻击方法主要集中在针对闭源LLMs的离散提示操纵上，依赖于人工构建的提示模板和说服规则。然而，随着开源LLMs能力的提高，确保其安全性变得越来越重要。在这种环境中，潜在攻击者可以获得模型参数和梯度信息，从而加剧了逃逸威胁的严重性。为了解决这一研究空白，我们提出了一种新颖的 Context-Coherent Jailbreak Attack （CCJA）。我们将逃逸攻击定义为在掩码语言模型嵌入空间内的优化问题。通过组合优化，我们有效地平衡了逃逸攻击成功率与语义一致性之间的关系。广泛评估显示，我们的方法不仅保持了语义一致性，还在攻击效果上超越了最新的基线方法。此外，通过将我们方法生成的语义一致性逃逸提示整合到广泛使用的黑盒方法中，我们观察到在针对闭源商业LLMs时其成功率显著提高。这突显了开源LLMs对商业同类的安全威胁。如果论文被接受，我们将开源我们的代码。

发布时间: 2/18/2025

查看原文

LLMs可以在多维度上进行分析写作评估：关于二语研究生学术英语写作的案例研究

作者: Zhengxiang Wang, Veronika Makarova, Zhi Li, Jordan Kodner, Owen Rambow

arXiv:2502.11368v1 声明类型: cross 摘要: 本文探讨了大型语言模型(LLMs)在多维分析性写作评估的背景下的性能，即其根据多个评估标准提供评分和评论的能力。我们使用了一组由二语研究生撰写的文献综述，这些综述由人类专家在9项分析性标准的基础上进行评估。我们对几种流行的LLM在不同条件下执行相同任务进行了测试。为了评估反馈评论的质量，我们应用了一种新的反馈评论质量评估框架。与依赖人工判断的现有方法相比，该框架具有可解释性、成本效益、可扩展性和可重现性。我们发现，LLM能够生成合理良好且一般可靠的多维度分析性评估。我们发布了我们的语料库以确保可重现性。

发布时间: 2/18/2025

查看原文

稀疏自动编码器特征用于分类和迁移性

作者: Jack Gallifant, Shan Chen, Kuleen Sasse, Hugo Aerts, Thomas Hartvigsen, Danielle S. Bitterman

arXiv:2502.11367v1 交叉类型: cross 摘要: 稀疏自编码器（SAEs）为揭示大型语言模型（LLMs）中的结构化和人类可解释的表示提供了潜力，使它们成为透明和可控AI系统的关键工具。我们系统地分析了SAEs在安全关键分类任务中从LLMs中提取可解释特征的潜力。我们的框架评估了(1) 模型-层选择和缩放特性，(2) SAE架构配置，包括宽度和下采样策略，以及(3) 转换连续SAE激活为二进制的效果。从GSemma 2 2B到9B-IT模型，通过SAE获得的特征在宏F1 > 0.8的条件下表现出色，超过了隐藏状态和BoW基线，并展示了模型间跨模型的迁移能力。这些特征在无监督跨语言毒性检测和视觉分类任务中具有泛化能力。我们的分析指出了下采样策略和二进制化阈值的重要影响，显示二进制化为传统的特征选择提供了一种高效替代方案，同时保持或提高性能。这些发现为基于SAE的可解释性建立了新的最佳实践，并使LLMs在实际应用中的可扩展和透明部署成为可能。完整代码库: https://github.com/shan23chen/MOSAIC.

发布时间: 2/18/2025

查看原文