LLM2D

arXiv 论文列表

作者: Wei Zhao, Zhe Li, Yige Li, Jun Sun
尽管在安全对齐方面付出了巨大的努力,但像 GPT-4 和 LLaMA 3 这样的大型语言模型 (LLM) 仍然容易受到越狱攻击,这些攻击会导致有害行为,包括由对抗性后缀触发的行为。基于先前的研究,我们假设这些对抗性后缀不仅仅是错误,而是可能代表能够主导 LLM 行为的特征。为了评估这一假设,我们进行了多项实验。首先,我们证明了良性特征可以有效地用作对抗性后缀,即我们开发了一种特征提取方法,从良性数据集中提取样本无关特征,以后缀的形式,并表明这些后缀可能会有效地损害安全对齐。其次,我们表明从越狱攻击生成的对抗性后缀可能包含有意义的特征,即,将相同的后缀附加到不同的提示会导致响应表现出特定的特征。第三,我们表明,即使在没有有害内容的情况下,通过仅使用良性数据集进行微调,也可以轻松引入这种良性但会损害安全的特征,即,即使在没有有害内容的情况下。这突出了训练数据中主导良性特征带来的严重风险,并呼吁进一步研究来加强 LLM 安全对齐。我们的代码和数据可在 \url{https://github.com/suffix-maybe-feature/adver-suffix-maybe-features} 获取。
发布时间: 10/8/2024
查看原文
作者: Yi Xiong, Hao Wu, Changxu Shao, Ziqing Wang, Rui Zhang, Yuhong Guo, Junping Zhao, Ke Zhang, Zhenxuan Pan
大型语言模型 (LLM) 扩展的上下文窗口在各种应用中极大地增强了其能力,但也带来了在保持低延迟方面,尤其是首个标记时间 (TTFT) 方面的重大挑战。本文发现,随着上下文长度的增加,TTFT 的急剧上升主要由排队延迟驱动,而排队延迟是由对 GPU 键值 (KV) 缓存分配不断增长的需求与有限的 KV 缓存块可用性之间的冲突造成的。为了解决这个问题,我们提出了 LayerKV,这是一种简单但有效的插件方法,它可以有效地降低 TTFT,而无需额外的硬件或损害输出性能,同时与现有的并行策略和调度技术无缝集成。具体来说,LayerKV 引入了分层 KV 块分配、管理和卸载,以对系统内存进行细粒度控制,并结合了 SLO 感知调度程序来优化整体服务级别目标 (SLO)。对从 70 亿到 700 亿参数的代表性模型进行了全面评估,涵盖了各种 GPU 配置,结果表明 LayerKV 将 TTFT 延迟提高了高达 69 倍,并将 SLO 违规率降低了 28.7%,从而极大地改善了用户体验。
发布时间: 10/8/2024
查看原文
作者: Tao Tan, Yining Qian, Ang Lv, Hongzhan Lin, Songhao Wu, Yongbo Wang, Feng Wang, Jingtong Wu, Xin Lu, Rui Yan
大型语言模型 (LLMs) 结合检索增强生成 (RAG) 为网络搜索带来了新的范式。然而,LLMs 的上下文感知能力有限,导致它们在 RAG 任务上的表现下降。现有的增强上下文感知方法通常效率低下,在推理过程中会产生时间或内存开销,而且许多方法都是针对特定的位置嵌入而设计的。本文提出了一种与位置嵌入无关的注意力重新加权 (PEAR) 方法,该方法无需推理开销即可增强 LLMs 的上下文感知能力。具体来说,在一个专注于上下文复制的代理任务中,我们首先检测出抑制模型上下文感知能力从而降低 RAG 性能的注意力头。为了减弱这些头的影响,我们使用可学习的系数对其输出进行重新加权。通过调整这些系数以最小化代理任务的损失,对 LLM(参数冻结)进行优化。结果,系数被优化到小于 1 的值,从而降低了它们抑制 RAG 性能的趋势。在推理过程中,无论任务如何,这些优化后的系数都会被固定以重新加权这些头。我们提出的 PEAR 方法与之前的方法相比具有两大优势:(1) 它在内存使用或推理时间方面不会引入额外的推理开销,同时在各种 RAG 任务上的准确性和效率方面都优于竞争基线。(2) 它独立于位置嵌入算法,确保更广泛的适用性。
发布时间: 10/8/2024
查看原文
作者: Diego A. B. Moreira, Alef Iury Ferreira, Jhessica Silva, Gabriel Oliveira dos Santos, Luiz Pereira, Jo\~ao Medrado Gondim, Gustavo Bonil, Helena Maia, N\'adia da Silva, Simone Tiemi Hashiguti, Jefersson A. dos Santos, Helio Pedrini, Sandra Avila
尽管视觉语言模型取得了重大进展并得到广泛应用,但关于其伦理影响的研究却很少。这些模型通常需要大量训练数据,这些数据通常来自匆忙审查的文本和图像数据集,导致数据集高度不平衡,并引发伦理问题。此外,最初用英语训练的模型经常被微调用于其他语言,例如 CLIP 模型,该模型可以通过更多数据进行扩展以增强功能,但可能会添加新的偏差。CAPIVARA 是一种基于 CLIP 的模型,已适应葡萄牙语,在零样本任务中表现出色。在本文中,我们评估了视觉语言模型中的四种不同类型的歧视性行为,并引入了 FairPIVARA,这是一种通过去除特征嵌入中最受影响的维度来减少歧视性行为的方法。FairPIVARA 的应用导致观察到的偏差显著减少,最高可达 98%,同时促进了模型中更平衡的词语分布。我们的模型和代码可在以下地址获取:https://github.com/hiaac-nlp/FairPIVARA。
发布时间: 10/8/2024
查看原文
作者: Haowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He, Volker Tresp, Zhiqiang Xu, Jindong Gu
大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法...
发布时间: 10/8/2024
查看原文
作者: George R. Nahass, Ghasem Yazdanpanah, Madison Cheung, Alex Palacios, Jeffery Peterson, Kevin Heinze, Sasha Hubschman, Chad A. Purnell, Pete Setabutr, Ann Q. Tran, Darvin Yi
眼周距离和眼部及眼睑周围的特征包含着宝贵的信息,可用于疾病量化以及手术和医疗干预的监测。这些距离通常通过人工测量,这一过程既主观又非常耗时。本文旨在开发三种深度学习方法用于分割和眼周距离预测,并评估眼周距离在疾病分类中的效用。我们深度学习预测距离的平均绝对误差小于或非常接近训练有素的人工标注者之间的误差。我们将我们的模型与当前最先进的眼周距离预测方法进行了比较,发现我们的方法在所有数据集上,除了一个眼周测量以外,都优于最先进的方法。我们还表明,使用在开源健康眼睛上训练的模型,可以对患病眼睛实现稳健的分割,并且眼周距离可以作为下游分类模型中的高质量特征。利用分割网络作为分类中的中间步骤,对提高眼部整形和颅面外科分类模型的泛化能力具有广泛的意义,因为它避免了传统卷积神经网络中观察到的分布外问题。
发布时间: 10/8/2024
查看原文
作者: Xin Li, Siyuan Huang, Qiaojun Yu, Zhengkai Jiang, Ce Hao, Yimeng Zhu, Hongsheng Li, Peng Gao, Cewu Lu
自动化服装操作对辅助机器人来说是一个巨大的挑战,因为服装具有多样性和可变形性。传统方法通常需要针对每种服装类型建立单独的模型,这限制了可扩展性和适应性。相比之下,本文提出了一种使用视觉语言模型(VLMs)的统一方法,以提高各种服装类别的关键点预测精度。通过解释视觉和语义信息,我们的模型使机器人能够使用单个模型管理不同的服装状态。我们使用先进的模拟技术创建了一个大型合成数据集,允许在没有大量真实世界数据的情况下进行可扩展的训练。实验结果表明,基于 VLMs 的方法显着提高了关键点检测精度和任务成功率,为机器人服装操作提供了更灵活、更通用的解决方案。此外,这项研究还强调了 VLMs 在单个框架内统一各种服装操作任务的潜力,为未来家居自动化和辅助机器人的更广泛应用铺平了道路。
发布时间: 10/8/2024
查看原文
作者: Jakub {\L}ucki, Boyi Wei, Yangsibo Huang, Peter Henderson, Florian Tram\`er, Javier Rando
大型语言模型被微调以拒绝有关危险知识的问题,但这些保护措施通常可以被绕过。反学习方法旨在完全消除模型中的危险能力,使其对对手不可用。这项工作从对抗的角度挑战了反学习与传统安全后训练之间的根本差异。我们证明了现有的越狱方法,此前被报道对反学习无效,在谨慎应用时可以成功。此外,我们开发了各种自适应方法来恢复大多数被认为未被学习的能力。例如,我们表明,对 10 个无关示例进行微调或删除激活空间中的特定方向可以恢复使用 RMU(一种最先进的反学习方法)编辑的模型的大多数危险能力。我们的发现挑战了当前反学习方法的鲁棒性,并质疑它们相对于安全训练的优势。
发布时间: 10/8/2024
查看原文
作者: Peixin Qin, Chen Huang, Yang Deng, Wenqiang Lei, Tat-Seng Chua
借助大型语言模型,当前的对话推荐系统 (CRS) 在说服用户接受推荐商品方面获得了强大的能力。虽然这些 CRS 极具说服力,但它们可能会通过在解释中加入难以置信的信息来误导用户,最终损害用户与 CRS 之间的长期信任。为了解决这个问题,我们提出了一种简单而有效的方法,称为 PC-CRS,以增强 CRS 在说服过程中的解释可信度。它通过我们提出的可信度感知说服策略引导解释生成,然后通过事后自我反思逐步细化解释。实验结果证明了 PC-CRS 在促进有说服力和可信的解释方面的有效性。进一步的分析揭示了当前方法产生难以置信的解释的原因以及可信的解释提高推荐准确性的潜力。
发布时间: 10/8/2024
查看原文
作者: Jaehan Kim, Minkyoo Song, Seung Ho Na, Seungwon Shin
参数高效微调(PEFT)已成为大型语言模型的关键训练策略。然而,它对可训练参数数量的依赖带来了安全风险,例如任务无关的后门。尽管这些后门对各种任务有严重影响,但在 PEFT 的背景下,还没有有效的防御解决方案可以有效地对抗任务无关的后门。在本研究中,我们介绍了 Obliviate,一种可与 PEFT 集成的后门防御方法。我们开发了两种技术,旨在放大 PEFT 层中的良性神经元,并惩罚触发词的影响。我们在三个主要 PEFT 架构上的评估表明,我们的方法可以显著降低最先进的任务无关后门的攻击成功率(83.6%$\downarrow$)。此外,我们的方法对特定任务后门和自适应攻击表现出强大的防御能力。源代码将在 https://github.com/obliviateARR/Obliviate 获得。
发布时间: 10/8/2024
查看原文