arXiv 论文列表

作者: Jiaming Zhang, Junhong Ye, Xingjun Ma, Yige Li, Yunfan Yang, Yunhao Chen, Jitao Sang, Dit-Yan Yeung

arXiv:2410.05346v3 宣布类型：替换-交叉摘要：由于其多模态能力，视觉语言模型（VLMs）在现实场景中发现了众多重要的应用。然而，最近的研究揭示了VLMs对基于图像的对抗攻击的脆弱性。传统的目标导向的对抗攻击需要特定的目标和标签，这限制了它们的实际影响。我们提出了一种名为AnyAttack的自监督框架，通过一种新颖的基础模型方法超越了传统攻击的限制。通过对大规模的LAION-400M数据集进行无标签预训练，AnyAttack实现了前所未有的灵活性——能够将任何图像转化为针对不同VLMs任何所需输出的攻击向量。这种方法从根本上改变了威胁格局，提升了前所未有的对抗能力的可访问性。我们在五个开源的VLMs（CLIP、BLIP、BLIP2、InstructBLIP和MiniGPT-4）上的广泛验证表明，AnyAttack在多样化的多模态任务中表现出色。更令人担忧的是，AnyAttack无缝转移到包括Google Gemini、Claude Sonnet、Microsoft Copilot和OpenAI GPT等商业系统，揭示了一个系统性的脆弱性，需要立即引起关注。

发布时间: 3/31/2025

查看原文

输出侦查：审核大规模语言模型的灾难性响应

作者: Andrew Bell, Joao Fonseca

arXiv:2410.05305v2 安全审计类型：替换-交叉摘要：近期涉及大型语言模型（LLMs）使用导致个体遭受重大损害的高调事件引发了对人工智能安全的日益关注。LLM 安全问题的一个原因是，模型经常会以非零概率生成有害输出。在本研究中，我们探讨了以下场景：假设一名 AI 安全审计员正在查找 LLM 的灾难性响应（例如，对“我可以因为怀孕而解雇员工吗？”回答“是”），并且只能有限地查询模型（例如，1000 次）。使用什么样的查询策略能在高效地找到这些失败响应？为此，我们提出了一种输出探查方法：该方法旨在生成与任何目标概率分布语义流畅的输出。然后，我们使用两个 LLM 进行实验，并找到许多灾难性响应的例子。在此基础上，我们进行了一次讨论，讨论中包含了针对希望实现 LLM 审计以应对灾难性响应的实践者的建议。我们还发布了开源工具包（https://github.com/joaopfonseca/outputscouting），该工具包使用 Hugging Face 变换器库实现了我们的审计框架。

发布时间: 3/31/2025

查看原文

LLMs生成结构上现实的社会网络但高估了政治同质性

作者: Serina Chang, Alicja Chaszczewicz, Emma Wang, Maya Josifovska, Emma Pierson, Jure Leskovec

arXiv:2408.16629v2 生成类型: 替换-交叉摘要：生成社会网络对于许多应用至关重要，例如传染病建模和社会仿真。生成式 AI 的兴起，特别是大型语言模型 (LLMs)，为社会网络生成提供了新的可能性：LLMs 可以在无需额外训练且无需定义网络参数的情况下生成网络，并且用户可以使用自然语言灵活地定义网络中的个体。然而，这种潜力引发了两个关键问题：1) LLM 生成的社会网络是否现实，2) 鉴于人口统计信息在形成社会联系中的重要性，存在何种偏见风险？为了回答这些问题，我们开发了三种网络生成提示方法，并将生成的网络与一系列真实社会网络进行比较。我们发现，与其他一次性构造整个网络的“全局”方法相比，“局部”方法（LLMs 一次构造一个角色的关系）生成了更具现实感的网络。我们还发现，生成的网络在密度、聚类、连通性和度分布等许多特征上与真实网络相匹配。然而，我们还发现，LLMs 强调政治同质性超过所有其他类型的同质性，并且显著高估了与真实社会网络相比的政治同质性。

发布时间: 3/31/2025

查看原文

DRExplainer: 有量化的解释性在定向图卷积网络中的药物响应预测中

作者: Haoyuan Shi, Tao Xu, Xiaodi Li, Qian Gao, Zhiwei Xiong, Junfeng Xia, Zhenyu Yue

arXiv:2408.12139v2 宣告类型: 替换-交叉摘要：预测癌细胞系对治疗药物的响应对个性化医疗至关重要。尽管已经开发出了许多深度学习方法来进行药物响应预测，但将生物实体的多种信息综合起来并预测响应方向仍是一项重大挑战。在此，我们提出了一种名为 DRExplainer 的新型可解释预测模型，该模型利用有向图卷积网络在有向双部图网络框架中增强预测。DRExplainer 通过结合细胞系的多组学资料、药物的化学结构以及已知的药物响应，构建了一个有向双部图，实现有向预测。然后，DRExplainer 通过学习掩码来识别有向双部图中与每个预测最相关的子图，从而促进关键的医学决策。此外，我们介绍了一种用于模型可解释性的量化方法，该方法利用了一个从生物特征中收集的真实基准数据集。在计算实验中，DRExplainer 在相同的实验设置下优于最先进的预测方法和另一种基于图的解释方法。最后，案例研究进一步验证了 DRExplainer 在预测新型药物响应方面的可解释性和有效性。我们的代码可在以下地址获取：https://github.com/vshy-dream/DRExplainer。

发布时间: 3/31/2025

查看原文

无需词汇的3D实例分割 dengan 视觉与语言辅助

作者: Guofeng Mei, Luigi Riz, Yiming Wang, Fabio Poiesi

arXiv:2408.10652v2 宣告类型: replace-cross 摘要：大多数最近的3D实例分割方法是开放式词汇的，提供了比封闭词汇方法更大的灵活性。然而，它们在测试时仍受限于用户提示的特定概念集，即词汇，进行推理。本质上，这些模型不能以开放的方式进行推理，即回答"列出场景中的物体"。我们引入了第一个能够在无任何先验词汇设定下进行3D实例分割的方法，即无词汇设定。我们利用一个大的视觉-语言助手和开放式词汇的2D实例分割器，在提出的图像上发现和定位语义类别。为了形成3D实例遮罩，我们首先将输入点云划分为密集的超级点，然后将它们合并成3D实例遮罩。我们提出了一种新的基于谱聚类的超级点合并策略，同时考虑来自2D物体实例遮罩的遮罩连贯性和语义连贯性。我们使用ScanNet200和Replica进行方法评估，在无词汇和开放式词汇设定下均优于现有方法。代码将公开。项目页面：https://gfmei.github.io/PoVo

发布时间: 3/31/2025

查看原文

单张图像撤回：多模态大型语言模型中的高效机器撤回

作者: Jiaqi Li, Qianshan Wei, Chuanyi Zhang, Guilin Qi, Miaozeng Du, Yongrui Chen, Sheng Bi, Fan Liu

arXiv:2405.12523v3 公告类型: replace-cross 摘要: 机器卸载赋予个人“被遗忘的权利”，通过从机器学习模型中删除其私人或敏感信息来实现。然而，尚不确定MU是否能有效地应用于多模态大型语言模型（MLLMs），特别是在忘记泄露的概念视觉数据时更为不确定。为了解决这一挑战，我们提出了一种高效的方法，单图像卸载（SIU），通过仅对与概念相关的一张图像进行少量微调来卸载概念的视觉识别。SIU 包括两个关键方面：（i）构建多层次的微调数据。我们引入了四个目标，基于这些目标，我们为需要忘记的概念构建微调数据；（ii）联合训练损失。为了同步忘记概念的视觉识别和保留MLLMs的实用性，我们通过结合交叉熵损失与新型双重掩码的KL散度损失来微调MLLMs。除了我们的方法外，我们还建立了MMUBench，这是一个新的基准，用于MLLMs中的MU评估，并引入了一组评估指标。在MMUBench上的实验结果表明，SIU完全超越了现有方法的性能。此外，我们惊讶地发现，SIU可以避免侵入性成员身份推断攻击和 Jailbreak 攻击。据我们所知，我们是首次在MLLMs中探索MU。我们将在不久的将来开源代码和基准。

发布时间: 3/31/2025

查看原文

统一的微分方程分析平滑Q学习算法

作者: Donghwan Lee

arXiv:2404.14442v3 宣告类型: replace-cross 摘要：近几十年来，Q-learning的收敛性一直是研究的重点。最近，使用切换系统框架引入了Q-learning的渐近收敛分析。这种方法采用所谓的常微分方程（ODE）方法来证明异步Q-learning作为连续时间切换系统的收敛性，在其中，切换系统理论中的概念被用来证明其渐近稳定性，而不需要显式的李亚普诺夫论证。然而，为了证明稳定性，必须满足底层切换系统的一些限制条件，如准单调性，这使得将分析方法推广到其他强化学习算法（如光滑Q-learning的变体）变得困难。本文提出了一个更通用和统一的收敛分析方法，改进了切换系统方法，并能够分析Q-learning及其光滑变体。提出的分析方法受到基于$p$范数的同步Q-learning收敛性以前工作的启发，但它解决了可以涵盖异步Q-learning及其更简单的框架中的光滑版本的更一般的ODE模型。

发布时间: 3/31/2025

查看原文

无传感器机器人 manipulator 设计的动态引导扩散模型

作者: Xiaomeng Xu, Huy Ha, Shuran Song

arXiv:2402.15038v2 公告类型: replace-cross 摘要: 我们提出了动力学引导扩散模型 (DGDM)，这是一种数据驱动的框架，用于生成特定任务的机械臂设计而无需针对特定任务进行训练。给定物体形状和任务规范，DGDM 生成传感器无感知的机械臂设计，这些设计可以通过开环并行运动盲打地操纵物体达到预定的运动和姿态。该框架： 1) 灵活地将操作任务表示为相互作用概况， 2) 使用几何扩散模型表示设计空间， 3) 利用由训练时无任何任务信息的动力学网络提供的梯度高效地搜索该设计空间。我们对从移动/旋转物体到使物体达到特定姿态的各种操作任务进行了评估。我们的生成设计在平均成功率方面分别相对于基于优化和无引导扩散的基线方法表现出31.5%和45.3%的相对性能提升。凭借在0.8秒内生成新设计的能力，DGDM 促进了快速的设计迭代，并增强了数据驱动方法在机器人机制设计中的应用。定性的结果最好在我们项目的网站上查看 https://dgdm-robot.github.io/。

发布时间: 3/31/2025

查看原文

自我奖励语言模型

作者: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Sukhbaatar, Jing Xu, Jason Weston

arXiv:2401.10020v3 公告类型: replace-cross 摘要: 我们认为，为了实现超人类代理，未来的模型需要超人类反馈，以便提供适当的训练信号。当前的方法通常是从人类偏好训练奖励模型，但这可能会受到人类性能水平的瓶颈限制；其次，这些单独冻结的奖励模型在LLM训练过程中无法学习改进。在本项工作中，我们研究了自我奖励的语言模型，即使用LLM作为裁判提示，让语言模型本身在训练过程中为其自身提供奖励。我们展示了，在迭代DPO训练过程中，不仅指令跟随能力得到了提高，还展示了自身提供高质量奖励的能力。对我们的方法进行三次迭代的Llama 2 70B微调后，该模型在AlpacaEval 2.0排行榜上表现出色，超过了包括Claude 2、Gemini Pro和GPT-4 0613在内的许多现有系统。尽管还有很多需要探索的地方，但这项工作为模型在两个维度上持续改进的可能性打开了大门。

发布时间: 3/31/2025

查看原文

基于MaxPool的神经网络稳健性验证紧化通过最小化过度逼近区interval

作者: Yuan Xiao, Yuchen Chen, Shiqing Ma, Chunrong Fang, Tongtong Bai, Mingzheng Gu, Yuxin Cheng, Yanwei Chen, Zhenyu Chen

arXiv:2211.09810v2 宣告类型: 替换-交叉摘要：神经网络分类器的鲁棒性在安全关键领域非常重要，可以通过鲁棒性验证来进行量化。目前，有效的可扩展验证技术往往是精确但不完备的，因此，提高验证鲁棒性结果是评估不完备验证方法性能的关键标准。多变量函数 MaxPool 广泛采用但难以验证。在本文中，我们提出了 Ti-Lin，这是一种基于 MaxPool 的 CNN 的鲁棒性验证器，具有紧线性逼近。遵循最小化 CNN 非线性函数的过度逼近区间的序列，我们首次提出了可证明的最紧的神经元级别线性边界，以适应 MaxPool 函数。通过我们提出的线性边界，我们可以为 CNN 认证更大的鲁棒性结果。我们在不同的验证框架中使用开源基准对 Ti-Lin 的有效性进行了评估，包括 LeNet、PointNet 以及在 MNIST、CIFAR-10、Tiny ImageNet 和 ModelNet40 数据集上训练的网络。实验结果表明，与最先进的方法相比，Ti-Lin 在所有网络中的表现显著提高，最多可提高 78.6% 的认证准确率，且几乎与最快工具的耗时相同。我们的代码可在 https://github.com/xiaoyuanpigo/Ti-Lin-Hybrid-Lin 获取。

发布时间: 3/31/2025

查看原文