arXiv 论文列表

作者: Zirui He, Haiyan Zhao, Yiran Qiao, Fan Yang, Ali Payani, Jing Ma, Mengnan Du

arXiv:2502.11356v1 宣告类型: cross 摘要：大型语言模型（LLMs）遵循指令的能力对于其实用应用至关重要，但其背后的机制仍未得到充分理解。本文提出了一种新的框架，利用稀疏自编码器（SAE）来解释这些模型中指令遵循的工作原理。我们展示了我们识别出的特征如何有效地引导模型输出与给定指令相一致。通过对SAE隐藏激活的分析，我们确定了负责指令遵循行为的具体隐藏层。我们的研究结果表明，指令遵循能力是由一组特定的指令相关SAE隐变量编码的。这些隐变量既与相关指令在语义上有接近性，又能对模型行为产生因果效应。我们的研究突出了几种对于实现有效的引导性能至关重要的因素：精确特征识别、最终层的作用以及指令的最佳位置。此外，我们证明了该方法在不同大小的SAE和LLM中都具有有效的扩展性。

发布时间: 2/18/2025

查看原文

“核武部署了！”：分析自主大型语言模型代理决策中的灾难风险

作者: Rongwu Xu, Xiaojian Li, Shuo Chen, Wei Xu

arXiv:2502.11355v1 类别：交叉学科摘要：大规模语言模型（LLMs）正在演变成自主决策者，特别是在化学、生物、放射性及核（CBRN）等领域中，这引发了在高风险场景中发生灾难性风险的担忧。基于这样的风险可以源自智能体的有益性、无害性和诚实性（HHH）目标之间的权衡这一洞察，我们构建了一个新颖的三阶段评估框架，该框架精心设计以有效地自然地揭示这些风险。我们对12个先进的LLM进行了14,400次代理模拟，进行了广泛的实验和分析。结果显示，LLM代理可以自主地表现出灾难性行为和欺骗，而无需被故意诱导。此外，更强的推理能力往往增加而不是缓解这些风险。我们还展示了这些代理可以违反指令和优越的命令。总体而言，我们的实证研究证明了自主LLM代理中存在灾难性风险。应要求我们将发布我们的代码。

发布时间: 2/18/2025

查看原文

逆向流和一致性模型

作者: Yuchen Zhang, Jian Zhou

arXiv:2502.11333v1 逆生成类型: cross 摘要: 逆生成问题，如在无真实情况观察的前提下进行降噪，是许多科学探究和实际应用中的一个关键挑战。虽然类似于扩散模型、条件流匹配和一致性模型等生成模型的最近进展将生成问题刻画为降噪问题并取得了令人印象深刻的结果，但它们无法直接用于逆生成问题，除非可以访问干净的数据。在这里，我们介绍了逆流(Reverse Flow, IF)这一新颖的框架，它能够利用这些生成模型解决包括无真实情况观察的降噪在内的逆生成问题。逆流可以灵活地应用于几乎任何连续噪声分布，并允许复杂的关系。我们提出了学习逆流的两种算法，逆流匹配(Reverse Flow Matching, RFM) 和逆一致性模型(Reverse Consistency Model, RCM)。值得注意的是，为了推导出一个计算效率高、不需要模拟的逆一致性模型目标，我们将一致性训练推广到任何正向扩散过程或条件流中，这超出了降噪的应用范围。我们在合成数据集和真实数据集上展示了 IF 的有效性，优于先前的方法，同时支持先前方法无法处理的噪声分布。最后，我们展示了我们的技术在荧光显微镜和单细胞基因组学数据方面的应用，突显了 IF 在科学问题中的实用性。总体而言，这项工作扩展了强大生成模型在逆生成问题中的应用。

发布时间: 2/18/2025

查看原文

使用开源模型为用户偏好生成系统消息

作者: Minbyul Jeong, Jungho Cho, Minsoo Khang, Dawoon Jung, Teakgyu Hong

arXiv:2502.11330v1 Announce Type: cross 摘要：系统消息在与大型语言模型（LLMs）的交互中发挥着关键作用，通常充当启动对话的提示。通过系统消息，用户可以分配特定角色、执行预定任务、融入背景信息、指定各种输出格式和沟通风格。尽管具有这种灵活性，但公开可用的数据中往往缺乏系统消息，且在行业领域受到严格的许可证限制。手动为公开可用的数据贴上与用户指示相符的系统消息标签需要大量资源。鉴于这些挑战，我们的工作介绍了SysGen，这是一种生成与监督微调数据集中的辅助响应更好地对齐的系统消息的流水线。在SysGen数据上的训练展示了模型响应与系统消息和用户指示对齐的重大改进，这一结果在Multifacet基准测试的多种开源模型上得到了验证，同时对诸如Open LLM Leaderboard 2等其他未见过的基准测试的影响较小。我们的定性分析强调了多样化系统消息的重要性，以确保在不同场景中的更好适应性。

发布时间: 2/18/2025

查看原文

ALGEN: 使用对齐和生成的少量样本逆向攻击文本嵌入

作者: Yiyi Chen, Qiongkai Xu, Johannes Bjerva

arXiv:2502.11308v1 公告类型: cross 摘要: 随着大型语言模型（LLMs）和向量数据库的流行，私有文本数据越来越多地被处理和存储为数值嵌入。然而，近期的研究表明，这些嵌入容易受到反转攻击的影响，即通过重构原始文本来暴露敏感信息。先前的研究大多假设可以获取数百万句子来训练攻击模型，例如通过数据泄露或近乎无限制的API访问。借助我们的方法，仅需一个数据点即可实现部分成功的反转攻击。即使只有1000个数据样本，性能在多种黑盒编码器上达到最优，而无需使用泄露的数据进行训练。我们提出了一种使用对齐和生成（ALGEN）的少量提示文本嵌入反转攻击方法，通过将受害者嵌入与攻击空间对齐，并使用生成模型重构文本。我们发现，ALGEN攻击可以有效地跨领域和语言转移，揭示关键信息。我们进一步研究了针对ALGEN的各种防御机制，并发现没有任何一种有效，突显了反转攻击带来的脆弱性。通过显著降低反转的成本，并证明嵌入空间可以通过一阶优化对齐，我们确立了一种新的文本嵌入反转范式，为NLP中的嵌入对齐提供了更广泛的应用。

发布时间: 2/18/2025

查看原文

利用双提示点语言模型进行3D异常检测

作者: Jiaxiang Wang, Haote Xu, Xiaolu Chen, Haodi Xu, Yue Huang, Xinghao Ding, Xiaotong Tu

arXiv:2502.11307v1 宣传类型：交叉摘要：3D点云中的异常检测（AD）在各种工业应用中至关重要，尤其是在各种形式的精密制造中。考虑到对可靠的3D AD的需求，已经开发出了多种方法。然而，大多数这些方法通常需要为每种类别单独训练模型，这需要大量的内存并且缺乏灵活性。在本文中，我们提出了一种新的具有双提示的点语言模型（PLANE）用于3D异常检测。该方法利用多模态提示，将预训练的点语言模型（PLMs）的强大泛化能力扩展到3D点云AD领域，使用单一模型在多个类别上实现了出色的检测性能。具体而言，我们提出了一种双提示学习方法，结合了文本和点云提示。该方法利用动态提示生成模块（DPCM）生成特定样本的动态提示，然后将这些动态提示与每个模态的类别特定静态提示结合，有效推动了PLMs。此外，基于点云数据的特性，我们提出了伪3D异常生成方法（Ano3D），以提高模型在无监督设置下的检测能力。实验结果表明，在Anomaly-ShapeNet数据集上，与最先进的单一类别单一模型方法相比，该方法在异常检测和定位性能上分别提高了8.7%/17%，在Real3D-AD数据集上分别提高了4.3%/4.1%。代码将在发表后提供。

发布时间: 2/18/2025

查看原文

CORDIAL：多模态大型语言模型能否有效地理解连贯关系？

作者: Aashish Anantha Ramakrishnan, Aadarsh Anantha Ramakrishnan, Dongwon Lee

arXiv:2502.11300v1 交叉类型公告摘要：多模态大型语言模型（MLLMs）因其在不同问题领域中的优越指令遵循和推理能力而闻名。然而，现有的基准测试主要集中在评估下游任务中的事实性和逻辑正确性，对评估MLLMs解释语用线索和跨模态关系的能力关注较少。为解决这一问题，我们使用连贯关系评估MLLMs在多模态话语分析（MDA）方面的能力。我们的基准测试CORDIAL涵盖了三个不同的话语领域中各种粒度水平的广泛连贯关系。通过使用不同提示策略对10多种MLLMs进行的实验，我们展示了即使是像Gemini 1.5 Pro和GPT-4o这样的顶级模型，也无法匹配基于简单分类器的基线模型的性能。本研究强调了超越基于相似性的指标，采用话语驱动框架来评估MLLMs的必要性，提供了对其能力的一种更细致的评估。基准测试和代码可在以下链接获取：https://github.com/aashish2000/CORDIAL。

发布时间: 2/18/2025

查看原文

基于DRL的SFC分配中增强网络状态监控的语言模型集成

作者: Parisa Fard Moshiri, Murat Arda Onsu, Poonam Lohan, Burak Kantarci, Emil Janulewicz

arXiv:2502.11298v1 宣布类型：交叉摘要：在软件定义网络（SDN）和网络功能虚拟化（NFV）等现代架构中，高效的服务功能链（SFC）提供和虚拟网络功能（VNF）放置对于提升网络性能至关重要。虽然深度强化学习（DRL）有助于动态网络环境中的决策制定，但其对结构化输入和预定义规则的依赖限制了在未预见场景中的适应性。此外，DRL智能体的错误行为可能需要多次训练循环才能纠正，这可能会加强次优策略，从而降低性能。本文将DRL与语言模型（LMs）相结合，特别是双向编码器表示（BERT）和DistilBERT，以增强网络管理。通过将DRL最终的VNF分配输入到LM中，该系统可以处理和响应与SFC、数据中心（DCs）和VNF相关的查询，从而提供实时的资源利用率洞察、瓶颈检测和未来需求规划。我们使用低秩适应（LoRA）对LMs进行微调。结果显示，BERT在测试损失（0.28比0.36）和置信度（0.83比0.74）方面优于DistilBERT，尽管BERT的处理时间大约比DistilBERT多46%。

发布时间: 2/18/2025

查看原文

FairFare：一个众包 rideshare 数据以助力劳工组织者的工具

作者: Dana Calacci, Varun Nagaraj Rao, Samantha Dalal, Catherine Di, Kok-Wei Pua, Andrew Schwartz, Danny Spitzberg, Andr\'es Monroy-Hern\'andez

arXiv:2502.11273v1 宣告类型: cross 摘要： rideshare 工作者由于依赖于透明度差的 AI 和算法系统，经历了不可预测的工作条件。针对这些挑战，我们发现工会成员希望获得数据来帮助他们倡导立法，以提高这些平台的透明度和责任制。为应对这一需求，我们与科罗拉多州的 rideshare 工会合作，开发了 FairFare，这是一种工具，通过众包和分析工人的数据来估算取费率，即司机从每位乘客支付的费用中保留的百分比。我们与合作伙伴组织合作，在18个月的时间里收集了45名司机的76,000多条行程数据并部署了 FairFare。在评估访谈中，工会成员表示，FairFare 有助于影响科罗拉多州参议院法案 24-75 的立法语言并通过，该法案要求提高平台操作的透明度和数据披露，并且促进了全国性的叙事。最后，我们反思了将定量数据转化为政策成果的复杂性、社区基于的审计的本质以及未来透明度工具的设计影响。

发布时间: 2/18/2025

查看原文

在黑暗中提示：在缺乏权威标签时对提示工程的人工性能评估

作者: Zeyu He, Saniya Naphade, Ting-Hao 'Kenneth' Huang

arXiv:2502.11267v1 通知类型: cross 摘要：数百万用户向大型语言模型（LLMs）提出各种任务，但人们在提示工程方面做得如何？用户是否在多次迭代提示后能够接近其期望的结果？当没有黄金标准标签来衡量进度时，这些问题尤为重要。本文研究了LLM支持的数据标注场景，“黑暗中的提示”，在这个场景中，用户通过不使用手动标注的基准来迭代提示LLMs进行数据标注。我们开发了PromptingSheet，这是一种Google Sheets附加组件，使用户能够通过电子表格来组成、修订和迭代标注数据。通过一项涉及20名参与者的研究，我们发现，在四次或更多次迭代后，只有9名参与者提高了标注准确率。当可用的黄金标签较少时，自动化提示优化工具如DSPy也难以发挥作用。我们的研究结果突显了黄金标签的重要性以及自动化支持在人类提示工程中的需求和风险，为未来的工具设计提供了启示。

发布时间: 2/18/2025

查看原文