LLM2D

arXiv 论文列表

arXiv:2502.05214v1 类别: cross 摘要:深度学习模型在医疗图像分类任务中的广泛应用,旨在提高诊断准确度、减轻临床人员的工作负担并改善患者结果。然而,这些模型对对抗攻击的脆弱性给患者安全带来了重大风险。当前的攻击方法使用一般技术,如模型查询或像素值扰动来生成设计用来欺骗模型的对抗样本。这些方法可能无法充分解决源自漏诊或误诊的临床错误的独特特征。我们提出了一种基于概念的报告扰动攻击(CoRPA),这是一种专门针对医疗成像领域的黑色框对抗攻击框架。CoRPA 利用临床概念生成与现实中的临床误诊场景高度相似的对抗放射学报告和图像。我们使用 MIMIC-CXR-JPG 胸部X光片和放射学报告数据集演示了 CoRPA 的实用性。评估结果显示,对传统对抗攻击表现出强大抵抗力的深度学习模型,在受到 CoRPA 的专注于临床的扰动时,其鲁棒性显著减弱。这突显了在医疗AI系统中处理领域特定漏洞的重要性。通过引入专门的对抗攻击框架,这项研究为开发适用于实际医疗环境的稳健AI模型奠定了基础,确保其在高风险临床环境中安全可靠地部署。
发布时间: 2/11/2025
查看原文
作者: Qihao Lin, Chen Tang, Lan zhang, Junyang zhang, Xiangyang Li
arXiv:2502.05213v1 类别:交叉 摘要:经过充分训练的大语言模型(LLMs)存在显著风险,包括潜在的恶意使用和版权侵权。当前的研究旨在通过隐式嵌入水印来追踪LLM生成文本的分布。其中,单比特水印方法只能确定给定文本是否由LLM生成。相比之下,多比特水印方法将更丰富的信息嵌入生成的文本中,可以识别生成和分发给特定用户的哪款LLM生成了给定的文本。然而,现有努力直接将多比特水印嵌入生成的文本中,而没有考虑到水印容量。这种方法可能导致嵌入失败,尤其是在文本的水印容量不足时。本文基于大语言模型的logits推导出水印嵌入分布,并提出一个形式不等式来最优地分割文本以进行水印嵌入。在此基础上,我们提出了DERMARK,这是一种动态、高效且鲁棒的多比特水印方法。DERMARK将文本划分为不同长度的段落进行每一比特的嵌入,根据文本容量进行自适应匹配。通过最小化水印提取损失,这种方法实现了几乎无额外开销的性能,并对文本编辑和水印擦除攻击具有鲁棒性。全面的实验表明,与当前最优方法相比,我们的方法将每个比特所需的标记数减少了20%,水印嵌入时间减少了50%,并对文本编辑和水印擦除攻击具有鲁棒性。
发布时间: 2/11/2025
查看原文
作者: Momin Ahmad Khan, Virat Shejwalkar, Yasra Chandio, Amir Houmansadr, Fatima Muhammad Anwar
arXiv:2502.05211v1 公告类型: cross 摘要:尽管社区已经设计了各种防御措施来应对联邦学习(FL)中的中毒攻击威胁,但这些防御措施缺乏评估指南。这些防御措施在实验设置中容易陷入细微的陷阱,导致一种虚假的安全感,使得它们不适合实际部署。在本文中,我们系统地理解和识别这些问题,并提供更好的解决方案来应对这些挑战。首先,我们沿着三个维度设计了一个全面的FL防御系统化方案:i) 客户端更新的处理方式,ii) 服务器所知的内容,iii) 防御措施的应用阶段。接下来,我们全面回顾了50篇顶级防御论文,并确定了它们评价框架中常用的组件。基于这一回顾,我们揭示了六个不同的陷阱,并研究了这些陷阱的普遍存在性。例如,我们发现在这些工作中有大约30%的工作仅使用固有鲁棒的MNIST数据集,而有40%的工作采用了简单的攻击方法,这可能会无意中将它们的防御措施描绘为鲁棒的。使用三种具有代表性的防御措施作为案例研究,我们进行了一次关键性的再评估,以研究已识别陷阱的影响,并展示了这些陷阱如何导致对鲁棒性的错误结论。我们提供了可操作的建议,以帮助研究人员克服每个陷阱。
发布时间: 2/11/2025
查看原文
作者: Zora Che, Stephen Casper, Robert Kirk, Anirudh Satheesh, Stewart Slocum, Lev E McKinney, Rohit Gandikota, Aidan Ewart, Domenic Rosati, Zichu Wu, Zikui Cai, Bilal Chughtai, Yarin Gal, Furong Huang, Dylan Hadfield-Menell
arXiv:2502.05209v1 宣告类型: 交叉 摘要: 对于大型语言模型(LLM)的风险和能力评估在AI风险管理和治理框架中越来越受到重视。目前,大多数风险评估都是通过设计输入来引发系统的行为,从而发现有害行为。然而,这种方法的根本限制在于,在任何特定评估中发现的有害行为的严重程度只能为模型最坏情况行为提供下界。作为一种补充方法,我们建议使用模型篡改攻击来评估LLM,这些攻击允许修改潜在激活或权重。我们将最先进的技术(用于移除有害的LLM功能)与一套5种输入空间攻击和6种模型篡改攻击进行了对决。除了相互比较这些方法外,我们还展示了以下几点:(1) 模型对抗能力提取攻击的韧性处于低维稳健性子空间;(2) 模型篡改攻击的攻击成功率可以实证预测并提供保留输入空间攻击成功率的保守估算;(3) 最先进的遗忘方法可以在微调的16步内轻易逆转。这些结果凸显了移除有害的LLM功能的难度,并表明模型篡改攻击与单独的输入空间攻击相比,能提供更加严谨的评估。我们在 https://huggingface.co/LLM-GAT 释出了模型。
发布时间: 2/11/2025
查看原文
作者: Yago Romano Martinez, Brady Carter, Abhijeet Solanki, Wesam Al Amiri, Syed Rafay Hasan, Terry N. Guo
arXiv:2502.05208v1 交叉公告类型 摘要:自主车辆(AVs)高度依赖摄像头和人工智能(AI)来做出安全准确的驾驶决策。然而,由于AI是核心使能技术,这引发了严重的网络安全威胁,这些威胁阻碍了AV的大规模采用。因此,分析AV安全系统在面对操纵摄像头输入的复杂攻击时的韧性变得至关重要,这些攻击会欺骗AI模型。在这篇论文中,我们开发了一种针对自主车辆中交通标志识别(TSR)的摄像头伪装敌对攻击。具体来说,如果攻击始于修改停车标志的纹理以欺骗AV的目标检测系统,并进而影响AV的执行器。通过使用CARLA AV模拟器测试了攻击的有效性,结果表明这种攻击可以延迟自动刹车对停车标志的响应,这可能导致潜在的安全问题。我们在各种条件下进行了广泛实验,证实了我们提出的新攻击是有效的且具有鲁棒性。此外,我们通过提出缓解策略来应对攻击。所提出的攻击和防御方法适用于其他端到端训练的自主网络物理系统。
发布时间: 2/11/2025
查看原文
作者: Xingjun Ma, Yifeng Gao, Yixu Wang, Ruofan Wang, Xin Wang, Ye Sun, Yifan Ding, Hengyuan Xu, Yunhao Chen, Yunhan Zhao, Hanxun Huang, Yige Li, Jiaming Zhang, Xiang Zheng, Yang Bai, Henghui Ding, Zuxuan Wu, Xipeng Qiu, Jingfeng Zhang, Yiming Li, Jun Sun, Cong Wang, Jindong Gu, Baoyuan Wu, Siheng Chen, Tianwei Zhang, Yang Liu, Mingming Gong, Tongliang Liu, Shirui Pan, Cihang Xie, Tianyu Pang, Yinpeng Dong, Ruoxi Jia, Yang Zhang, Shiqing Ma, Xiangyu Zhang, Neil Gong, Chaowei Xiao, Sarah Erfani, Bo Li, Masashi Sugiyama, Dacheng Tao, James Bailey, Yu-Gang Jiang
arXiv:2502.05206v1 类别: cross 摘要:由大规模预训练卓越的学习和泛化能力推动,大规模模型的快速进展重塑了人工智能(AI)领域的格局。这些模型现在已成为广泛应用程序的基础,包括对话AI、推荐系统、自动驾驶、内容生成、医疗诊断和科学研究。然而,它们的广泛应用也使它们面临重大安全风险,引发了对鲁棒性、可靠性和伦理影响的担忧。本文综述了当前大规模模型的安全研究,涵盖了视觉基础模型(VFMs)、大型语言模型(LLMs)、视觉-语言预训练(VLP)模型、视觉-语言模型(VLMs)、扩散模型(DMs)以及基于大型模型的代理。我们的贡献总结如下:(1)我们全面阐述了这些模型的安全威胁分类,包括对抗攻击、数据中毒攻击、后门攻击、监禁攻击和提示注入攻击、能量-延迟攻击、数据和模型提取攻击以及新兴的代理特定威胁。(2)如果存在,我们回顾了每种攻击类型所提出的防御策略,并总结了安全研究中常用的数据库和基准。(3)在此基础上,我们识别并讨论了在大规模模型安全方面面临的开放挑战,强调需要进行全面的安全评估、可扩展且有效的防御机制以及可持续的数据实践。更重要的是,我们强调了研究社区和国际协作的必要性。我们的工作可以为研究人员和实践者提供有价值的参考,并促进全面防御系统的持续开发和平台的建设,以保护AI模型的安全。
发布时间: 2/11/2025
查看原文
作者: Nadav Timor, Jonathan Mamou, Daniel Korat, Moshe Berchansky, Oren Pereg, Gaurav Jain, Roy Schwartz, Moshe Wasserblat, David Harel
arXiv:2502.05202v1 类别: cross 摘要: 加速大型语言模型(LLMs)的推理是生成式AI中的关键挑战。推测性解码(SD)方法通过使用单个目标前向传递生成多个令牌,从而提供了显著的效率提升。然而,现有的SD方法要求草稿生成器和目标模型共享相同的词汇表,这限制了可供选择的草稿生成器的范围,通常需要从头开始训练一个草稿生成器。我们提出了三种新的SD方法,消除了这种共享词汇表的约束。所有这些方法都能保持目标分布(即,它们是无损的),并且可以与即用型模型一起工作,无需额外的训练或修改。在实验中,对于总结、编程和长上下文任务,我们的算法在标准自回归解码方法上实现了显著的速度提升。通过使任何即用型模型都能作为草稿生成器服务,并无需重新训练,这项工作大大扩展了SD框架在实践中的应用范围。
发布时间: 2/11/2025
查看原文
作者: Furkan Karada\c{s}, Bahaeddin Eravc{\i}, Ahmet Murat \"Ozbayo\u{g}lu
arXiv:2502.05186v1 类别:跨领域 摘要:在一个由众多静态和动态因素深度影响的金融市场时代,准确地结合多种数据源与机器学习技术进行股票价格预测变得尤为重要。本文探讨了一种多模态机器学习方法,将来自传统财务指标、推特和新闻文章等多种数据源的数据进行结合,以预测股票价格。我们通过使用ChatGPT-4o和FinBERT模型对这些文本数据进行情感分析,来捕捉实时市场动态和投资者情绪。我们将这些整合的数据流与标准的长短期记忆(LSTM)模型进行对比,以展示性能提升的程度。我们的研究结果表明,结合上述数据源可以显著提高参考模型的预测准确性,最高可达5%。我们还提供了这些模态的单独和综合预测能力的见解,突出了从推特和新闻文章中进行情感分析的显著影响。本文提供了一种系统且有效的框架,用于将多模态数据分析技术应用于金融市场时间序列预测,为投资者利用数据进行决策提供了新的视角。
发布时间: 2/11/2025
查看原文
arXiv:2502.05181v1 宣告类型:交叉 摘要:本文档介绍了一个新的项目管理框架,该框架利用了GenAI技术。该框架旨在解决学术和研究项目团队中常见的团队构成统一问题,特别是在大学和研究机构中的项目团队。通过结合社会学上识别的成功团队成员的性格和角色模式,利用GenAI代理来填补团队动态中的空缺。这种方法通过对团队成员的性格和角色进行评估,并利用细调于性格数据集上的GenAI代理来填补特定的团队角色,为传统的项目管理过程增加了另一层分析。我们的初步实验表明,该模型在理解并处理性格特征方面的能力有所提高,这表明GenAI队友在实际项目环境中的潜在有效性。本文旨在探讨AI在增强团队多样性及项目管理中的实际应用。
发布时间: 2/11/2025
查看原文
arXiv:2501.11613v5 消息类型: replace-cross 摘要:本文介绍了对话惯例 (CR),这是一种结构化的提示工程框架,通过大型语言模型 (LLM) 开发面向任务的对话系统。尽管 LLM 在自然语言理解方面表现出色,但如何可靠地执行复杂的业务工作流仍然是一个挑战。提出的 CR 框架通过自然语言规范使开发对话代理系统 (CAS) 成为可能,并在 LLM 提示中嵌入任务导向的逻辑。通过这种方法,在保持行为一致性的同时,提供了一种系统化的设计和实现复杂对话工作流的方法。我们通过两个概念验证实现证明了该框架的有效性:火车票预订系统和交互式故障排除副驾。这些案例研究验证了 CR 能够编码复杂的模式和决策逻辑,并保持自然对话的灵活性。结果表明,CR 使领域专家能够以自然语言设计对话工作流,同时利用软件工程师开发的自定义功能(工具),从而在核心 API 实现和对话设计之间创建一种高效的职责划分。虽然该框架在可访问性和适应性方面前景光明,但我们仍发现了关键挑战,包括计算开销、非确定性行为和领域特定逻辑优化。未来的研究方向包括基于目标导向评分标准驱动的提示工程框架的 CR 评估方法,提高复杂多智能体交互的可扩展性,并增强系统的鲁棒性以解决在各种业务应用中识别出的限制。
发布时间: 2/10/2025
查看原文