arXiv 论文列表

作者: Sejin Lee, Jian Kim, Haon Park, Ashkan Yousefpour, Sangyoon Yu, Min Song

arXiv:2503.20279v2 安全公告类型: replace-cross 摘要: 大型语言模型（LLMs）越来越多地作为计算机使用代理部署，自主地在真实的桌面或网络环境中执行任务。虽然这一演变极大地扩展了人类的实际应用场景，但也造成了严重的安全暴露。我们提出了 SUDO（基于屏幕的通用解毒到毒化防御），这是一种新型攻击框架，系统地绕过了商业计算机使用代理中的拒绝训练防护措施，例如 Claudie Computer Use。核心机制 Detox2Tox 通过解毒将有害请求（代理最初会拒绝这些请求）转换为看似无害的请求，从高级视觉语言模型（VLMs）中获取详细的指令，并在执行前通过毒化重新引入恶意内容。与传统的逃逸攻击不同，SUDO 基于内置的拒绝反馈迭代优化其攻击，使其能够越来越有效地对抗稳健的策略过滤器。在涵盖 50 个真实任务和多种最先进的 VLMs 的广泛测试中，SUDO 在没有优化的情况下达到了24% 的攻击成功率，在 Claudie Computer Use 中通过迭代优化达到最高41% 的成功率。通过揭示这些漏洞并展示在实际计算环境中轻松利用这些漏洞的方式，本文强调了立即需要稳健且上下文相关的防护措施。警告：本文包含有害或冒犯性模型输出。我们的代码可在以下地址获得：https://github.com/AIM-Intelligence/SUDO.git

发布时间: 4/7/2025

查看原文

-bootstraped模型预测控制

作者: Yuhang Wang, Hanwei Guo, Sizhe Wang, Long Qian, Xuguang Lan

arXiv:2503.18871v2 Announce Type: replace-cross 摘要：模型预测控制（MPC）已被证明在连续控制任务中有效。当世界模型和价值函数可用时，提前计划一系列动作会得到更好的策略。现有的方法通常以模型无关的方式获得价值函数及其相应的策略。然而，我们发现这种方法在解决复杂任务时存在困难，导致策略学习效果较差和价值估计不准确。为了解决这个问题，我们利用了MPC本身的优势。在这项工作中，我们介绍了Bootstrapped Model Predictive Control（BMPC），这是一种以自助方式学习策略的新算法。BMPC通过模仿MPC专家学习一个网络策略，并反过来使用该策略引导MPC过程。结合模型导向的TD学习，我们的策略学习能更好地进行价值估计，进一步提高MPC的效率。我们还引入了一种懒惰再分析机制，这使得模仿学习更加计算高效。我们的方法在各种连续控制任务上实现了优于先前工作的性能。特别是在具有挑战性的高维运动任务上，BMPC显著提高了数据效率，同时提高了渐近性能和训练稳定性，训练时间相同且网络规模更小。相关代码可在https://github.com/wertyuilife2/bmpc获取。

发布时间: 4/7/2025

查看原文

基于机器学习的寿命预测 Lithium-ion 电池剩余使用寿命的生存分析

作者: Jingyuan Xue, Longfei Wei, Fang Sheng, Jianfei Zhang

arXiv:2503.13558v4 公告类型：替换交叉摘要：电池退化显著影响储能系统的可靠性和效率，特别是在电动汽车（EV）和工业应用中。预测锂离子（Li-ion）电池的剩余使用寿命（RUL）对于优化维护计划、降低维护成本和提高安全性至关重要。传统的RUL预测方法往往难以应对非线性退化模式和不确定性量化。为了解决这些挑战，我们提出了一种结合统计和机器学习模型的混合生存分析框架，用于RUL估算。我们的方法通过路径签名将时间序列电池数据转化为失效时间数据，从而实现有效的生存模型构建。我们应用包括Cox基于生存模型和基于机器学习的方法（如DeepHit和MTLR）在内的五种模型，来估算随时间变化的无故障概率。在对362个丰田电池数据集进行的实验中，展示了我们方法的有效性，实现了高时间依赖性AUC和康根调和指数，同时保持低集成Brier分数。提出的这种方法为电池制造商和工程师提供了行动指南，支持动态维护策略和优化的产品生命周期管理。

发布时间: 4/7/2025

查看原文

端到端学习稀疏干预以引导生成的activation学习

作者: Pau Rodriguez, Michal Klein, Eleonora Gualdoni, Arno Blaas, Luca Zappella, Marco Cuturi, Xavier Suau

arXiv:2503.10679v2 宣告类型：替换交叉摘要：生成模型在日常生活中的日益广泛应用要求具备高效的控制机制，以便生成安全内容或为用户提供探索风格变化的工具。理想情况下，这些机制应该在训练时间和推理时间上都经济有效，同时保持输出质量。最近的研究表明，可以通过唯一干预模型激活来获得这类机制，目标是纠正使用来源数据集（如有毒和非有毒句子）与目标数据集的提示时所观察到的激活分布之间的差异。虽然这些快速方法经济高效，但它们本质上是粗糙的：它们仅在局部调整映射，而不考虑其对下游层的影响，导致在脱机使用时产生意外的变化。本文提出了一种线性端到端激活导向方法（LinEAS），该方法通过一个同时考虑所有层间分布变化的全局损失进行训练。与LinEAS一起使用的损失可以使用稀疏化范数进行规整，这可以自动执行神经元和层的选择。实验数据显示，LinEAS只需少量样本即可生效，并在减少毒性方面优于类似的基础方法，同时在性能上与更复杂的微调方法相当。我们展示了LinEAS干预的可组合性，研究了稀疏性对其性能的影响，并展示了其在文本到图像扩散中的应用。

发布时间: 4/7/2025

查看原文

基于弱标注音频片段的监督对比学习及其在音乐版本匹配中的应用

作者: Joan Serr\`a, R. Oguz Araz, Dmitry Bogdanov, Yuki Mitsufuji

arXiv:2502.16936v2 公告类型: replace-cross 摘要：检测音乐版本（同一作品的不同演绎）是一项具有重要应用价值的挑战性任务。由于存在真实标签，现有方法在曲目级别（例如，整首歌）进行音乐版本匹配。然而，大多数应用要求在片段级别（例如，20秒片段）进行匹配。另外，现有方法依赖于分类和三元组损失，忽略了可以带来有意义改进的较新的损失函数。在本文中，我们提出了一种从弱标注片段学习的方法，以及一种优于已研究替代方案的对比损失变体。前者基于成对片段距离减少，而后者在解耦、超参数和几何考虑的基础上修改了现有损失函数。借助这两个元素，我们不仅在标准的曲目级别评估中取得了最先进的结果，还在片段级别评估中实现了突破性的性能。我们认为，由于这里解决的挑战的一般性，所提出的方法可能在音频或音乐版本匹配之外的领域找到应用。

发布时间: 4/7/2025

查看原文

大型语言模型的解释说明了大脑中的语言表示

作者: Maryam Rahimi, Yadollah Yaghoobzadeh, Mohammad Reza Daliri

arXiv:2502.14671v3 公告类型：替换-交叉摘要：大型语言模型 (LLMs) 不仅表现出类似人类的表现，而且还与大脑的语言处理机制共享计算原理。尽管先前的研究重点在于将LLMs的内部表示映射到神经活动，但我们提出了一种新的方法，即将可解释人工智能 (XAI) 用于加强这种联系。通过应用归因方法，我们量化了前一个词对LLMs下一个词预测的影响，并使用这些解释来预测参与者听故事时的fMRI数据。我们发现，归因方法在语言网络中稳健地预测大脑活动，揭示了一个分层模式：早期层的解释与大脑最初的语言处理阶段相吻合，而较晚的层对应于更高级的阶段。此外，对下一个词预测影响较大的层（体现在更高的归因分数上）显示出更强的大脑对齐。这些结果强调了XAI在探索语言的神经基础方面的潜力，并且表明大脑对齐可以用于评估解释方法的生物合理性。

发布时间: 4/7/2025

查看原文

大型语言模型考虑安全性吗？关于对编程问题的回应的实证研究

作者: Amirali Sajadi, Binh Le, Anh Nguyen, Kostadin Damevski, Preetha Chatterjee

arXiv:2502.14202v2 通告类型: replace-cross 摘要：软件开发中广泛采用对话式大语言模型（LLM）引起了关于LLM生成内容安全性的新安全问题。我们的动机研究探讨了ChatGPT在上下文特定信息提供方面的能力，这有助于鼓励安全编程实践。受此发现的启发，我们开展了一项研究，评估三种 prominent 的LLM（Claude 3, GPT-4, 和 Llama 3）的安全意识程度。我们通过向这些LLM提出包含漏洞代码的Stack Overflow问题，以评估它们是仅仅提供问题的答案，还是同时警告用户关于不安全代码。进而我们评估LLM的响应是否提供了关于漏洞的原因、利用方式以及潜在修复方法的信息，帮助提高用户的意识。我们的研究发现表明，所有三种模型在准确检测并警告用户关于漏洞方面表现不佳，我们的数据集中的检测率仅为12.6%到40%。我们还观察到，LLM们比其他类型的漏洞更频繁地识别出与敏感信息暴露和不当输入中和有关的漏洞类型。此外，当LLM发出安全警告时，它们通常提供比Stack Overflow回答更多的关于漏洞的原因、利用方式和修复方法的信息。最后，我们深入讨论了我们的发现的意义，并提出了一个基于命令行界面的提示工具，可以用于生成显著更安全的LLM响应。

发布时间: 4/7/2025

查看原文

LlamaRestTest：使用小型语言模型的有效REST API测试

作者: Myeongsoo Kim, Saurabh Sinha, Alessandro Orso

arXiv:2501.08598v2 通知类型: 交叉替换摘要：现代网络服务严重依赖于REST API，通常通过OpenAPI规范进行文档说明。这一标准的广泛应用导致了开发了许多基于OpenAPI规范生成测试用例的黑盒测试工具。尽管大型语言模型（LLMs）展示了有希望的测试生成能力，但其在REST API测试中的应用仍然基本未被探索。我们提出了LlamaRestTest，这是一种新颖的方法，它使用两个自定义的LLM（通过微调和量化Llama3-8B模型并使用挖掘的REST API示例值和参数间依赖数据集创建），生成现实的测试输入，在测试过程中通过分析服务器响应发现参数间的依赖关系。我们在包括Spotify在内的12个真实服务上评估了LlamaRestTest，将其与RESTGPT（一个基于GPT的规范增强工具）以及几种先进的REST API测试工具（包括RESTler、MoRest、EvoMaster和ARAT-RL）进行了比较。我们的结果显示，微调使较小的模型能够在检测可操作的参数依赖规则和生成有效的REST API测试输入方面超越更大的模型。我们还评估了从基础的Llama3-8B模型到不同微调版本的各种工具配置，并探索了多种量化技术，包括2位、4位和8位整数格式。我们的研究表明，在REST API测试中，小语言模型可以与大语言模型表现得一样好，甚至更好，在有效性和效率上有良好的平衡。此外，LlamaRestTest在代码覆盖率和内部服务器错误识别方面甚至超越了使用RESTGPT增强规范的最先进的REST API测试工具。

发布时间: 4/7/2025

查看原文

PromptGuard：软提示引导的内容审核模型用于文本生成图像任务中的有害内容 moderatio

作者: Lingzhi Yuan, Xiaojun Jia, Yihao Huang, Wei Dong, Yang Liu

arXiv:2501.03544v2 安全类型：替换交叉摘要：文本到图像（T2I）模型已被证明容易被误用，特别是在生成不适合工作场所（NSFW）内容方面，引发了严重的伦理问题。在这项工作中，我们提出了一种名为PromptGuard的新颖内容审核技术，该技术受到了大型语言模型（LLMs）系统提示机制的启发，以实现安全性对齐。与LLMs不同，T2I模型缺乏直接接口来强制执行行为指南。我们的核心思想是优化一个安全软提示（P*），该提示作为T2I模型文本嵌入空间中的隐式系统提示。这个通用软提示直接处理NSFW输入，使得在不改变推理效率或不需要代理模型的情况下，能够生成安全且高质量的图像。在三个数据集上的广泛实验表明，PromptGuard有效地减轻了NSFW内容的生成，同时保持了高质量的良性输出。PromptGuard比以前的内容审核方法快7.8倍，并且以3.84%的最优不安全比率超过了八种最先进的防御措施。

发布时间: 4/7/2025

查看原文

CALICO：基于部分的语义共分割与大型视觉-语言模型

作者: Kiet A. Nguyen, Adheesh Juvekar, Tianjiao Yu, Muntasir Wahed, Ismini Lourentzou

arXiv:2412.19331v2 宣布类型: 替换交叉摘要：最近在大型视觉语言模型（LVLMs）方面的进展使通过视觉指令微调实现通用视觉任务成为可能。虽然现有的LVLMs可以从文本提示生成单张图像的分割掩码，但在跨图像的分割基础推理方面遇到了困难，尤其是在物体部分等细粒度方面。在这篇论文中，我们引入了新的部分聚焦语义联合分割任务，该任务涉及识别和分割跨图像的共同物体以及共同和独特的物体部分。为了解决这一任务，我们提出了CALICO，这是第一个专门为多图像部分级推理分割设计的LVLM。CALICO具有两个关键组件：一个新的对应提取模块，用于识别语义部分级对应关系，以及适应模块，将这些信息嵌入LVLM中，以在参数高效的方式促进多图像理解。为了支持训练和评估，我们整理了包含约240万个样本的大规模多图像分割数据集MixedParts，这些样本涉及约44000张图像，涵盖了多样化的物体和部分类别。实验结果表明，尽管CALICO只有其参数的0.3%经过微调，但在这一具有挑战性的任务上表现出了强大的性能。

发布时间: 4/7/2025

查看原文