arXiv 论文列表

作者: Sunwoo Lee, Jaebak Hwang, Yonghyeon Jo, Seungyul Han

arXiv:2502.02844v2 宣告类型: replace-cross 摘要：传统的多智能体强化学习（MARL）中的鲁棒方法在合作场景中往往难以应对协调的对抗攻击。为了解决这一限制，我们提出了狼群对抗攻击框架（Wolfpack Adversarial Attack framework），该框架借鉴了狼群猎捕策略，旨在破坏初始智能体及其协助智能体之间的合作。此外，我们还引入了狼群对抗学习的MARL（WALL，Wolfpack-Adversarial Learning for MARL）框架，通过促进系统范围内的合作来训练鲁棒的MARL策略以防御所提出的狼群攻击。实验结果强调了狼群攻击的破坏性影响以及WALL实现的重大鲁棒性提升。

发布时间: 2/17/2025

查看原文

任务意识虚拟训练：增强元强化学习中未知分布任务的泛化能力

作者: Jeongmo Kim, Yisak Park, Minung Kim, Seungyul Han

arXiv:2502.02834v2 任务类型: replace-cross 摘要：元强化学习旨在开发能够泛化到从任务分布中采样的未见任务的策略。虽然基于上下文的元RL方法通过任务潜在变量提高任务表示，但在处理分布外（OOD）任务时它们往往会遇到困难。为了解决这一问题，我们提出了一种名为任务感知虚拟训练（TAVT）的新颖算法，该算法利用基于度量的表示学习准确捕捉训练和OOD场景中的任务特征。我们的方法成功地在虚拟任务中保留了任务特征，并采用了一个状态正则化技术来缓解状态变化环境中估计误差的过度放大。数值结果表明，TAVT在各种MuJoCo和MetaWorld环境中显著提高了对OOD任务的泛化能力。

发布时间: 2/17/2025

查看原文

“_do_as_I_say_not_as_I_do”: 针对多模态LLM的一种半自动化 Jailbreak 指令攻击方法

作者: Chun Wai Chiu, Linghan Huang, Bo Li, Huaming Chen

arXiv:2502.00735v2 宣布类型: 交叉替换摘要：大规模语言模型（LLMs）因其处理各种类型输入数据（包括文本、音频、图像和视频）的能力不断增强，在各个领域得到了广泛的应用。尽管LLMs在理解和生成不同场景下内容方面表现出色，但它们对基于提示的攻击特别脆弱，这些攻击主要通过文本输入进行。在本文中，我们介绍了针对多模态LLMs的第一种基于语音的解除限制攻击，称为旁敲警.keyword攻击，它可以同时处理不同类型输入以应对多模态LLMs。我们的工作灵感来源于近年来单语言语音驱动的大规模语言模型的进展，这些模型为LLMs引入了新的攻击面，超出了传统的基于文本的漏洞。为了调查这些风险，我们研究了最先进的多模态LLMs，这些LLMs可以通过不同类型的输入（如音频输入）访问，重点关注敌对提示如何绕过其防御机制。我们提出了一种新颖的策略，在该策略中，受限提示被良性、叙述驱动的提示所包围。该策略集成在旁敲警.keyword攻击中，旨在通过虚构的情境使人际交互背景人性化，并执行攻击。此外，为更好地评估攻击性能，我们提出了一个半自动的自我评估框架，用于检测政策违规。我们证明旁敲警.keyword攻击能够操纵最先进的LLMs生成偏离目标和禁止的输出，在七个禁止场景中实现了从0.67到0.93的平均攻击成功率。

发布时间: 2/17/2025

查看原文

利用大型语言模型提升机器学习可解释性和预测性能：针对精神健康患者急诊返回的案例研究

作者: Abdulaziz Ahmed, Mohammad Saleem, Mohammed Alzeen, Badari Birur, Rachel E Fargason, Bradley G Burk, Hannah Rose Harkins, Ahmed Alhassan, Mohammed Ali Al-Garadi

arXiv:2502.00025v3 通知类型: replace-cross 摘要: 重要性: 精神健康状况的急诊返回给医疗保健带来了重大负担，24-27%的患者在30天内会再次返回急诊。传统的机器学习模型用于预测这些返回时，往往缺乏临床使用的可解释性。目标: 评估将大型语言模型（LLMs）与机器学习结合是否能提高精神健康状况的急诊返回风险预测模型的预测准确性和临床可解释性。方法: 本回顾性队列研究分析了2018年1月至2022年12月期间，在美国南部一所医学院校的27,904名独特精神健康患者中发生的42,464次急诊就诊。主要结果和指标: 评估了两个主要结果:(1) 30天内急诊返回的预测准确性，(2) 使用一种新颖的LLM增强框架结合SHAP（SHapley Additive exPlanations）值和临床知识来评估模型的可解释性。结果: 在主要症状分类方面，通过10-shot学习的LLaMA 3（8B）比传统模型表现更好（准确率：0.882，F1分数：0.86）。在社会决定因素（SDoH）分类中，基于LLM的模型实现了0.95的准确率和0.96的F1分数，其中酒精、烟草和药物滥用表现最好（F1：0.96-0.89），而运动和家庭环境的表现较差（F1：0.70-0.67）。基于LLM的可解释性框架在将模型预测转化为临床相关解释时达到了99%的准确率。从LLM提取的特征将XGBoost的AUC从0.74提高到0.76，AUC-PR从0.58提高到0.61。结论与意义: 将LLM与机器学习模型结合使用，虽然增加了准确率的适度提升，但显著增强了通过自动化、临床相关解释的可解释性。这种方法为将预测分析转化为可操作的临床洞察提供了框架。

发布时间: 2/17/2025

查看原文

奖励指导的推测性解码以实现高效的LLM推理

作者: Baohao Liao, Yuhui Xu, Hanze Dong, Junnan Li, Christof Monz, Silvio Savarese, Doyen Sahoo, Caiming Xiong

arXiv:2501.19324v2 宣传类型: 替换-交叉摘要：我们介绍了奖励引导推测解码（RSD），这是一种旨在提高大型语言模型（LLMs）推理效率的新颖框架。RSD 将一个轻量级草案模型与一个更强大的目标模型协同结合，并引入可控偏见以优先处理高奖励输出，与现有的推测解码方法（这些方法强制执行严格的无偏性）形成对比。RSD 使用过程奖励模型评估中间解码步骤，并动态决定是否调用目标模型，从而优化计算成本与输出质量之间的权衡。理论上，我们证明了基于阈值的混合策略在资源利用与性能之间实现了最优平衡。在挑战性推理基准上的广泛评估，包括奥林匹克级别的任务，表明与仅使用目标模型解码相比，RSD 可获得显著的效率提升（最多可减少 4.4 倍的 FLOPs），同时在平均性能上优于并行解码方法（最多提高 3.5%）。这些结果突出了 RSD 在资源密集场景下部署 LLMS 的稳健性和经济性。代码可在 https://github.com/BaohaoLiao/RSD 获取。

发布时间: 2/17/2025

查看原文

增强神经函数逼近：XNet优于KAN

作者: Xin Li, Xiaotao Zheng, Zhihong Xia

arXiv:2501.18959v2 通告类型: replace-cross 摘要: XNet 是一种单层神经网络架构，利用柯西积分基础的激活函数进行高阶函数近似。通过理论分析，我们表明 XNet 中使用的柯西激活函数可以实现任意阶多项式收敛，从根本上优于依赖于增加深度或 B-样条激活的传统多层感知机（MLPs）和柯尔莫哥洛夫-阿诺尔德网络（KANs）。我们在函数近似、偏微分方程求解和强化学习方面的广泛实验表明，XNet 的性能优于现有方法——将近似误差最多减少 50000 倍，训练速度最快可提高 10 倍。这些结果证明了 XNet 作为科学计算和人工智能应用的高效架构的地位。

发布时间: 2/17/2025

查看原文

不筑墙，建桥——通过统一特征、数据和模型组件归因推动可解释性的发展

作者: Shichang Zhang, Tessa Han, Usha Bhalla, Himabindu Lakkaraju

arXiv:2501.18887v2 宣告类型: 替换-交叉摘要：AI系统日益增加的复杂性使得理解其行为成为了一个至关重要的挑战。已经开发出了多种方法将模型行为归因于三个关键方面：输入特征、训练数据和内部模型组件。然而，这些归因方法却是独立研究和应用的，导致了方法和术语上的分散化局面。本文立场论文提出，特征、数据和组件的归因方法在本质上具有根本的相似性，将它们联系起来可以提升可解释性研究。我们对这三类归因方面的成功方法进行了详细分析，并提出了一个统一的观点，展示了这些看似不同的方法在本质上采用了相似的方法，如扰动、梯度和线性近似，主要的不同在于视角而非核心技术。我们统一的观点增强了对现有归因方法的理解，识别了共同的概念和挑战，使该领域对于新手来说更加易于进入，并突显了不只在归因和可解释性方面，而在更广泛的AI研究（包括模型编辑、引导和监管）方面的新方向。

发布时间: 2/17/2025

查看原文

分析并增强细粒度视觉识别在多模态大语言模型中的能力

作者: Hulingxiao He, Geng Li, Zijun Geng, Jinglin Xu, Yuxin Peng

arXiv:2501.15140v2 通知类型: replace-cross 摘要：多模态大型语言模型（MLLMs）在各种视觉理解任务中展示了令人瞩目的能力。然而，MLLMs 在细粒度视觉识别（FGVR）方面仍然存在困难，FGVR 的目标是从图像中识别从属类别的分类。这可能会负面影响 MLLMs 的更高级能力，例如基于对象的视觉问题回答和推理。在我们的研究中，我们重新审视了 MLLMs 的三项基本能力，用于 FGVR，包括对象信息提取、类别知识储备、对象-类别对齐，以及将这些偏差问题定位为核心问题所在。为了解决这一问题，我们提出了 Finedefics，这是一种通过在训练阶段融入具有信息属性描述的对象来增强模型的 FGVR 能力的 MLLM。我们同时在对象-属性对和属性-类别对上使用对比学习，并使用类似但不正确的类别的例子作为硬否定样本，自然地使视觉对象的表示和类别名称更加接近。在多个流行的 FGVR 数据集上的广泛评估显示，Finedefics 在与现有相似参数量的 MLLMs 的表现上更出色，展示了其显著的效果。代码可在 https://github.com/PKU-ICST-MIPL/Finedefics_ICLR2025 获取。

发布时间: 2/17/2025

查看原文

表面视图蟒蛇：利用双向状态空间模型进行高效球面流形表示

作者: Rongzhao He, Weihao Zheng, Leilei Zhao, Ying Wang, Dalin Zhu, Dan Wu, Bin Hu

arXiv:2501.14679v4 Announce Type: replace-cross 摘要：基于注意力的方法在球面皮层表面建模长距离依赖关系方面表现出色，超越了传统的几何深度学习（GDL）模型。然而，它们的广泛推断时间和高内存需求为使用有限计算资源的大数据集应用带来了挑战。受计算机视觉中状态空间模型的启发，我们提出了无需注意力的视觉猛兽（Vim）用于球面表面，从而为分析球面流形上的数据提供了一个通用领域架构。我们的方法通过将球面数据表示为源自细分的icosphere的三角形片段序列来实现表面分割。提出的Surface Vision Mamba（SiM）在使用新生儿大脑皮层表面指标的多种神经发育表型回归任务中进行了评估。实验结果表明，SiM 在Ico-4 网格划分下比 Surface Vision Transformer（SiT）具有 4.8 倍更快的推断速度和 91.7% 的更低内存消耗。进一步的灵敏度分析进一步突出了 SiM 在识别细微的认知发育模式方面的潜力。代码可从 https://github.com/Rongzhao-He/surface-vision-mamba 获取。

发布时间: 2/17/2025

查看原文

证据图：学习证据分析以释放小规模语言模型在生物医学问答中的潜力

作者: Chang Zong, Jian Wan, Siliang Tang, Lei Zhang

arXiv:2501.12746v4 通知类型: replace-cross 摘要: 在处理生物医学领域的专业问题时，人类通常会获取多份信息作为证据，并进行多方面的分析以提供高质量的答案。当前基于LLM的问答方法缺乏对证据分析的详细定义和学习过程，导致在使用证据时存在错误传播和幻觉的风险。尽管增加LLM的参数量可以缓解这些问题，但也带来了在资源有限的情况下训练和部署的挑战。在本研究中，我们提出了EvidenceMap，旨在使一个小小的预训练语言模型显式地学习生物医学证据的多个方面，包括支持性评估、逻辑关联和内容总结，从而隐式地引导一个小生成模型（约30亿参数）提供文本响应。实验结果表明，通过只微调一个66M参数模型来学习证据分析的方法，在参考质量和准确性方面分别超过了使用8B LLM的RAG方法19.9%和5.7%。

发布时间: 2/17/2025

查看原文