arXiv 论文列表

作者: Roland Daynauth, Christopher Clarke, Krisztian Flautner, Lingjia Tang, Jason Mars

arXiv:2411.14483v2 评估类型: 替换-跨领域摘要: 选择哪种大型语言模型（LLM）是一个复杂的挑战。一对一组比较作为一种新的方法出现，用于评估LLM的人类偏好。这种方法涉及人类根据预定义的标准对模型输出进行评价。通过收集这些比较，可以使用如Elo等方法构建排名。然而，在LLM评估语境中应用这些算法时会遇到一些挑战。在本文中，我们探讨了排名系统在LLM一对一比较中的有效性。我们正式定义了一套有效的排名基本原则，并在LLM的上下文中对多种排名算法的鲁棒性进行了广泛评估。我们的分析揭示了影响排名准确性和效率的关键因素，为根据特定评估环境和资源限制选择最合适的方法提供了指导。

发布时间: 2/18/2025

查看原文

当后门发声：通过模型生成的解释理解LLM后门攻击

作者: Huaizhi Ge, Yiming Li, Qifan Wang, Yongfeng Zhang, Ruixiang Tang

arXiv:2411.12701v3 通知类型: 替换-交叉摘要: 大型语言模型（LLMs）已知易受后门攻击的影响，其中包含在中毒样本中的触发器可以恶意地改变LLMs的行为。在本文中，我们不再针对LLMs进行攻击，而是通过自然语言解释的新视角来研究后门攻击。具体来说，我们利用LLMs的生成能力为它们的决策生成人类可读的解释，从而使我们可以直接对比干净样本和中毒样本的解释。我们的结果显示，后门模型对干净输入生成连贯的解释，但对有毒数据生成多样且合乎逻辑上存在缺陷的解释，这种模式在不同后门攻击下的分类和生成任务中都是一致的。进一步的分析揭示了解释生成过程中的关键见解。在单个词级别上，与有毒样本相关的解释词仅出现在最后几层变换器中。在句子级别上，注意力动态表明，有毒输入在解释生成过程中将注意力从原始输入上下文转移到其他地方。这些发现增强了我们对LLMs中后门机制的理解，并提出了一种通过可解释性检测漏洞的有前途的框架。

发布时间: 2/18/2025

查看原文

评估大型语言模型的提示可控性

作者: Erik Miehling, Michael Desmond, Karthikeyan Natesan Ramamurthy, Elizabeth M. Daly, Pierre Dognin, Jesus Rios, Djallel Bouneffouf, Miao Liu

arXiv:2411.12405v2 提交类型: 替换-交叉摘要：构建多元AI需要设计能够被塑造成反映广泛价值观和文化模型。要实现这一点，首先需要能够评估给定模型在多大程度上能够反映出各种人格特质。为此，我们提出了一种评估模型人格可塑性的基准，该评估基于提示可塑性的形式定义，分析模型联合行为分布可以被基线行为转移的程度。通过定义可塑性指标并检查这些指标随引导努力变化的方式，我们可以估计模型在各种人格维度和方向上的可塑性。我们的基准表明，许多当前模型的可塑性有限——这既是因为它们基线行为的偏差，也是因为它们在许多人格维度上的可塑性存在不对称性。我们将在 https://github.com/IBM/prompt-steering 上发布我们基准的实现。

发布时间: 2/18/2025

查看原文

你的语义独立水印是脆弱的：针对EaaS水印的语义扰动攻击

作者: Zekun Fei, Biao Yi, Jianing Geng, Ruiqi He, Lihai Nie, Zheli Liu

arXiv:2411.09359v2 通知类型: replace-cross 摘要：Embedding-as-a-Service (EaaS) 已经成为一种成功的商业模式，但面临着各种形式的版权侵权问题，特别是API滥用和模型提取攻击。各种研究提出了基于后门的水印方案来保护EaaS服务的版权。在本文中，我们揭示了先前的水印方案具有语义独立的特性，并提出了一种语义扰动攻击（SPA）。我们的理论和实验分析表明，这种语义独立的特性使得当前的水印方案容易受到适应性攻击的威胁，这些攻击利用语义扰动测试来绕过水印验证。在多个数据集上的广泛实验结果显示，在SPA下识别水印样本的真阳性率（TPR）可以达到95%以上，从而使水印变得无效，同时保持嵌入的高实用性。此外，我们讨论了可能的防御策略来减轻SPA。我们的代码可在 https://github.com/Zk4-ps/EaaS-Embedding-Watermark 获取。

发布时间: 2/18/2025

查看原文

MIRe: 通过融合-free 模态交互增强多模态查询表示以提高多模态检索效率

作者: Yeong-Joon Ju, Ho-Joong Kim, Seong-Whan Lee

arXiv:2411.08334v2 更新类型: 替换-交叉摘要：近期的多模态检索方法通过利用预训练策略实现视觉-文本对齐，从而赋予基于文本的检索器多模态能力。这些方法通常在对齐过程中直接融合两种模态以进行交叉参考，以理解多模态查询。然而，现有的方法往往由于文本主导问题而忽视了关键的视觉信息，这使得它们过度依赖于文本驱动的信号。在本文中，我们引入了MIRe，这是一种在对齐过程中不融合文本特征即可实现模态交互的检索框架。我们的方法允许文本查询关注视觉嵌入，而不将文本驱动的信号反馈回视觉表示。此外，我们通过将简短的问题-答案对转化为扩展段落来构建多模态查询检索的预训练数据集。我们的实验表明，我们的预训练策略显著增强了对多模态查询的理解，在零样本设置下，我们的方法在四个多模态检索基准测试中表现出色。我们的代码已在公开可用：https://github.com/yeongjoonJu/MIRe。

发布时间: 2/18/2025

查看原文

对比语言提示以减轻医学异常检测中的假阳性

作者: YeongHyeon Park, Myung Jin Kim, Hyeong Seok Kim

arXiv:2411.07546v2 宣传类型: 替换-交叉摘要: 一种预先训练的视觉-语言模型，对比语言-图像预训练(CLIP)，通过文本提示成功完成了多种下游任务，例如找到图像或在图像中定位区域。尽管CLIP在多模态数据方面表现出色，但在医学应用等专门环境中仍然存在局限性。为此，出现了许多CLIP变体，例如BioMedCLIP和MedCLIP-SAMv2，但与正常区域相关的假阳性依然存在。因此，我们的目标是提出一个简单但重要的目标，即减少医学异常检测中的假阳性。我们介绍了一种利用正负文本提示的对比语言提示(CLAP)方法。这种简单的做法通过视觉注意力识别给定图像中正提示的潜在病灶区域。为了减少假阳性，我们通过使用负提示减弱对正常区域的注意力。通过对BMAD数据集进行广泛的实验，包括六个医学基准测试，证明了CLAP方法提高了异常检测性能。我们的未来计划是开发一种自动细粒度提示方法，以便更实用地使用。

发布时间: 2/18/2025

查看原文

有条件控制离散扩散语言模型

作者: Hyukhun Koh, Minha Jhang, Dohyung Kim, Sangmook Lee, Kyomin Jung

arXiv:2411.06438v3 宣布类型: 更改交叉摘要: 尽管自回归模型在自然语言处理中表现出色，但它们经常难以生成多样化的文本并提供有限的可控性。非自回归方法可以是一个替代方案，但通常会产生退化的输出并在条件生成方面显示出缺点。为了解决这些挑战，我们提出了Diffusion-EAGS，这是一种新颖的框架，通过条件马尔可夫随机场的理论视角，将条件遮蔽语言模型整合到扩散语言模型中。在此过程中，我们提出了自entropy适应的吉布斯采样和基于entropy的噪声调度，以平衡每个模型的缺点。实验结果显示，Diffusion-EAGS在基础模型之上表现出色，并实现了最佳的质量-多样性权衡，证明了其在非自回归文本生成中的有效性。

发布时间: 2/18/2025

查看原文

FlexCAD：经过微调的大语言模型驱动的统一可配置的CAD生成

作者: Zhanwei Zhang, Shizhao Sun, Wenxiao Wang, Deng Cai, Jiang Bian

arXiv:2411.05823v2 Announce Type: replace-cross 摘要：最近，基于用户意图创建计算机辅助设计（CAD）模型的兴趣越来越浓厚，这被称为可控制的CAD生成。现有的工作提供了有限的控制能力，并需要为不同类型的控制单独使用模型，这降低了效率和实用性。为了在所有CAD构建层次上实现可控生成，比如草图-挤出、挤出、草图、面、环和曲线，我们提出了FlexCAD，这是一种通过调整大型语言模型（LLMs）的统一模型。首先，为了增强LLMs的理解能力，我们将CAD模型表示为结构化的文本，并将每个层次抽象为文本标记序列。其次，为了在一个统一模型中应对各种可控生成任务，我们引入了一种层次感知掩蔽策略。具体来说，在训练过程中，我们用掩蔽标记遮住CAD文本中的层次感知字段。该字段由一系列标记组成，可以灵活设置以表示各种层次。随后，我们要求LLMs预测这个被遮掩的字段。在推理过程中，用户意图被转换为CAD文本，其中用掩蔽标记替换用户想要修改的部分，然后将这些文本输入FlexCAD以生成新的CAD模型。在公开数据集上的全面实验表明，FlexCAD在生成质量和可控性方面具有有效性。代码将在 https://github.com/microsoft/FlexCAD 可用。

发布时间: 2/18/2025

查看原文

文本和图像都泄露了！一种关于多模态LLM数据污染的系统分析

作者: Dingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

arXiv:2411.03823v2 通知类型: 替换交叉摘要: 多模态大规模语言模型（MLLMs）的快速发展在各种多模态基准测试中展示了出色的表现。然而，在训练过程中数据污染的问题给性能评估和比较带来了挑战。虽然有许多方法可以检测大规模语言模型（LLMs）中模型的数据污染，但由于MLLMs具有多种模态和多个训练阶段，这些方法在MLLMs中的效果较差。在这项研究中，我们引入了一个针对MLLMs的多模态数据污染检测框架，MM-Detect。实验结果表明，MM-Detect 在识别不同程度的数据污染方面非常有效和灵敏，并且可以突出显示由于多模态基准训练集泄露带来的显著性能改进。此外，我们还探讨了数据污染是源自MLLMs使用的基础LLMs，还是多模态训练阶段，为数据污染可能引入的阶段提供了新的见解。

发布时间: 2/18/2025

查看原文

分解困境：声明分解是提升还是拖累了事实核查性能？

作者: Qisheng Hu, Quanyu Long, Wenya Wang

arXiv:2411.02400v2 宣告类型: replace-cross 摘要：事实核查流水线越来越多地采用分解-验证范式，其中文本被分解成较小的断言进行个体验证，并随后结合以做出真伪决定。尽管在这些流水线中广泛采用了分解，但其对最终事实核查性能的影响仍鲜有研究。一些研究报道了分解带来的改进，而其他研究则观察到性能下降，这表明分解的影响是不一致的。到目前为止，还没有进行过全面的分析来了解这种变异性。为了解决这一缺口，我们进行了一项深入分析，明确地探讨了分解对下游验证性能的影响。通过错误案例检查和实验，我们介绍了分解错误的分类，并揭示了准确性增益与分解过程中引入的噪声之间的权衡。我们的分析为理解当前系统不稳定性的原因提供了新的见解，并为未来旨在改进断言分解的研究提供了指导。

发布时间: 2/18/2025

查看原文