arXiv 论文列表

作者: Zheni Zeng, Yuxuan Chen, Shi Yu, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun

大型语言模型 (LLM) 通常依赖于检索增强生成来即时利用知识材料，或者需要外部信号（例如人类偏好数据和更强的 LLM 注解）来进行知识适应。为了释放 LLM 的自学习潜力，我们提出了 KBAlign，这是一种旨在高效适应涉及知识库的下游任务的方法。我们的方法利用迭代训练和自我标注数据（例如问答对和修改建议），使模型能够高效地掌握知识内容。在多个数据集上的实验结果证明了我们方法的有效性，显著提高了下游任务中的模型性能，这些任务需要以低成本获得特定知识。值得注意的是，我们的方法实现了使用 GPT-4-turbo 注解所能获得的性能提升的 90% 以上，同时完全依赖于自监督学习。我们向社区发布了我们的实验数据、模型和过程分析，以供进一步探索 (https://github.com/thunlp/KBAlign)。

发布时间: 11/25/2024

查看原文

遗忘再学习后门：深度学习模型的延迟后门功能攻击

作者: Jeongjin Shin, Sangdon Park

深度学习模型容易受到后门攻击，攻击者在训练过程中注入恶意功能，该功能在推理时会在触发输入上激活。大量的研究集中在开发隐蔽的后门攻击以规避检测和防御机制。然而，这些方法仍然存在局限性，由于其固有的在触发器存在时导致恶意行为的设计，使得检测和缓解成为可能。为了解决这一局限性，我们引入了延迟激活后门功能 (DABF)，这是一种新的后门攻击范式。与传统攻击不同，DABF 最初隐藏其后门，即使触发也能产生良性输出。这种隐蔽的行为允许 DABF 绕过多种检测和防御方法，在初步检查中保持未被检测到。后门功能仅在模型经过后续更新（例如对良性数据进行再训练）后才被战略性地激活。DABF 攻击利用机器学习模型生命周期中常见的做法，即在初始部署后执行模型更新和微调。为了实施 DABF 攻击，我们通过使后门的遗忘变得脆弱来解决这个问题，使其易于取消并随后重新激活后门功能。为了实现这一点，我们提出了一种新颖的两阶段训练方案，称为 DeferBad。我们在各种微调场景、后门攻击类型、数据集和模型架构上的大量实验证明了 DeferBad 的有效性和隐蔽性。

发布时间: 11/25/2024

查看原文

探索机器人视觉-语言-动作模型的对抗性漏洞

作者: Taowen Wang, Dongfang Liu, James Chenhao Liang, Wenhao Yang, Qifan Wang, Cheng Han, Jiebo Luo, Ruixiang Tang

近年来，在机器人领域，视觉-语言-动作（VLA）模型已成为一种变革性方法，使机器人能够通过在端到端学习框架内整合视觉和语言输入来执行复杂任务。虽然VLA模型具有显著的能力，但它们也引入了新的攻击面，使其容易受到对抗性攻击。由于这些漏洞在很大程度上未被探索，本文系统地量化了基于VLA的机器人系统的鲁棒性。认识到机器人执行的独特需求，我们的攻击目标针对机器人系统的固有空间和功能特性。特别是，我们引入了一种非目标位置感知攻击目标，利用空间基础来破坏机器人的动作，以及一种操纵机器人轨迹的目标攻击目标。此外，我们设计了一种对抗性补丁生成方法，该方法将一个小而彩色的补丁放置在摄像机的视野内，有效地在数字和物理环境中执行攻击。我们的评估揭示了任务成功率的显著下降，在一套模拟机器人任务中下降高达100％，突出了当前VLA架构中的关键安全漏洞。通过揭示这些漏洞并提出可操作的评估指标，这项工作促进了对基于VLA的机器人系统安全性的理解和增强，强调了在物理世界部署之前开发强大的防御策略的必要性。

发布时间: 11/25/2024

查看原文

基于熵的弱监督细胞核检测自举方法

作者: James Willoughby, Irina Voiculescu

显微结构分割，例如检测细胞或细胞核，通常需要人工在每个实例周围绘制真实轮廓。弱监督方法（例如，仅包含单个点标签）有可能显著减少这种工作量。我们的方法使用单个点标签进行熵估计，以逼近细胞像素的潜在分布。我们从该分布中推断完整的细胞掩码，并使用Mask-RCNN生成实例分割输出。我们将这种点标注方法与使用完整真实掩码进行训练的方法进行了比较。结果表明，尽管像素标签减少了95%，但我们的方法仍取得了相当好的性能。

发布时间: 11/25/2024

查看原文

利用大型语言模型合成产品期望数据集

作者: John D. Hastings, Sherri Weitl-Harms, Joseph Doty, Zachary J. Myers, Warren Thompson

本研究探索了利用大型语言模型 (LLM) 生成用于产品期望工具包 (PDT) 测试的合成数据集，这是评估用户情绪和产品体验的关键组成部分。利用 gpt-4o-mini（一种更经济高效的替代大型商业 LLM 的方案），我们分别使用三种方法——词+评论、评论+词和供应词——合成了 1000 条产品评论。生成的这些数据集在情绪一致性、文本多样性和数据生成成本方面进行了评估。结果表明，所有方法的情绪一致性都很高，皮尔逊相关系数介于 0.93 到 0.97 之间。“供应词”方法展现出最高的 PDT 术语多样性和覆盖率，尽管其生成成本有所增加。尽管存在轻微的正面情绪偏差，但在测试数据有限的情况下，LLM 生成的合成数据具有显著优势，包括可扩展性、成本节约和数据集生成的灵活性。

发布时间: 11/25/2024

查看原文

基于参与度的，大型语言模型内容生成

作者: Erica Coppolillo, Federico Cinus, Marco Minici, Francesco Bonchi, Giuseppe Manco

大型语言模型 (LLM) 在一对一的交互中表现出显著的说服能力，但其在社交网络中的影响力仍未得到充分探索。本研究调查了 LLM 在这些环境中的潜在社会影响，其中相互关联的用户和复杂的意见动态带来了独特的挑战。特别是，我们探讨了以下研究问题：LLM能否学习生成有意义的内容以最大限度地提高社交网络上的用户参与度？为了回答这个问题，我们定义了一个管道来指导基于 LLM 的内容生成，该管道采用强化学习和模拟反馈。在我们的框架中，奖励基于借鉴意见动态和信息传播文献的参与模型。此外，我们强制 LLM 生成的文本与给定主题一致，并满足最低流畅性要求。使用我们的框架，我们分析了 LLM 在解决给定任务方面的能力和局限性，特别是考虑了 LLM 作为社交网络中代理的相对位置以及网络中关于给定主题的意见分布。我们的研究结果显示了 LLM 在创造社会参与方面的巨大潜力。我们方法的显著特性是学习过程能够适应底层网络的意见分布，并且与参与模型的细节无关，参与模型作为即插即用组件嵌入其中。在这方面，我们的方法可以很容易地改进，以应对更复杂的参与任务和计算社会科学中的干预措施。用于实验的代码可在 https://anonymous.4open.science/r/EDCG/ 公开获取。

发布时间: 11/25/2024

查看原文

AGLP：一种用于半监督领域自适应的图学习视角

作者: Houcheng Su, Mengzhu Wang, Jiao Li, Nan Yin, Liang Yang, Li Shen

在半监督域适应（SSDA）中，模型旨在利用部分标记的目标域数据以及大量的标记源域数据来增强其对目标域的泛化能力。SSDA 的一个关键优势在于它能够显著减少对标记数据的依赖，从而降低数据准备相关的成本和时间。大多数现有的 SSDA 方法利用来自域标签和类别标签的信息，但忽略了数据的结构信息。为了解决这个问题，本文提出了一种用于半监督域适应的图学习视角（AGLP）。我们将图卷积网络应用于实例图，允许结构信息沿着加权图边传播。所提出的 AGLP 模型具有多个优点。首先，据我们所知，这是第一项在 SSDA 中对结构信息建模的工作。其次，所提出的模型可以有效地学习域不变和语义表示，减少 SSDA 中的域差异。在多个标准基准上的大量实验结果表明，所提出的 AGLP 算法优于最先进的半监督域适应方法。

发布时间: 11/25/2024

查看原文

图聚类：基于图的半监督医学图像分割

作者: Mengzhu Wang, Jiao Li, Houcheng Su, Nan Yin, Liang Yang, Shen Li

半监督学习（SSL）在医学图像分割（MIS）领域取得了显著进展，尤其是在标记数据有限且显著提高数据利用效率的场景中。以往的方法主要关注复杂的训练策略以利用未标记数据，但忽略了图结构信息的重要性。与现有方法不同，我们提出了一种基于图的聚类用于半监督医学图像分割（GraphCL），该方法在一个统一的深度模型中联合建模图数据结构。提出的 GraphCL 模型具有几个优点。首先，据我们所知，这是第一个对半监督医学图像分割（SSMIS）的数据结构信息进行建模的工作。其次，为了获得不同图之间的聚类特征，我们将局部图像特征和原始特征之间的成对亲和力都作为输入。在三个标准基准上的大量实验结果表明，所提出的 GraphCL 算法优于最先进的半监督医学图像分割方法。

发布时间: 11/25/2024

查看原文

从文本到姿态到图像：改进扩散模型的控制和质量

作者: Cl\'ement Bonnet, Ariel N. Lee, Franck Wertel, Antoine Tamano, Tanguy Cizain, Pablo Ducru

近两年来，文本到图像扩散模型变得极其流行。随着其质量和使用率的提高，人们越来越关注如何更好地控制输出。除了提示工程外，提高扩散模型可控性的有效方法之一是将其与其他模态（例如图像风格、深度图或关键点）结合起来。这就是ControlNets或Adapters的基础。当尝试应用这些方法来控制文本到图像扩散模型输出中的人体姿势时，出现了两个主要挑战。第一个挑战是根据各种语义文本描述生成姿势，以前的方法需要在一个（标题、姿势）对的数据集中搜索姿势。第二个挑战是在保持高审美和高姿势保真度的同时，根据指定的姿势调整图像生成。在本文中，我们通过引入一个文本到姿势 (T2P) 生成模型、一种新的采样算法和一个新的姿势适配器（该适配器包含更多关键点以实现更高的姿势保真度）来解决这两个主要问题。这两个新的最先进模型共同实现了第一个生成式文本到姿势到图像框架，从而在扩散模型中实现更高的姿势控制。我们已在 https://github.com/clement-bonnet/text-to-pose 发布所有模型和实验代码。

发布时间: 11/25/2024

查看原文

STREAM：一种用于稀疏几何数据的通用状态空间模型

作者: Mark Sch\"one, Yash Bhisikar, Karan Bania, Khaleelulla Khan Nazeer, Christian Mayr, Anand Subramoney, David Kappel

处理稀疏和非结构化几何数据（例如点云或基于事件的视觉）是机器视觉领域的一个紧迫挑战。最近，诸如Transformer和状态空间模型之类的序列模型进入了几何数据领域。这些方法需要专门的预处理来创建点集的序列视图。此外，先前涉及序列模型的工作使用统一或学习的步长迭代几何数据，隐式地依赖于模型来推断底层几何结构。在这项工作中，我们建议将几何结构显式地编码到状态空间模型的参数化中。状态空间模型基于由一维变量（例如时间或空间坐标）控制的线性动力学。我们利用这个动态变量将坐标的相对差异注入到状态空间模型的步长中。由此产生的几何运算以O(N)步计算N个点所有对之间的交互。我们的模型部署了具有修改后的CUDA内核的Mamba选择性状态空间模型，以有效地将稀疏几何数据映射到现代硬件。由此产生的序列模型（我们称之为STREAM）在一系列基准测试中取得了具有竞争力的结果，从点云分类到基于事件的视觉和音频分类。STREAM通过在ModelNet40和ScanObjectNN点云分析数据集上从头开始训练时改进PointMamba基线，展示了对稀疏几何数据的强大归纳偏置。它还首次在DVS128手势数据集的所有11个类别上实现了100%的测试准确率。

发布时间: 11/25/2024

查看原文