LLM2D
防护 breaches: 揭示大型语言模型的脆弱性
Breach in the Shield: Unveiling the Vulnerabilities of Large Language Models
作者: Runpeng Dai, Run Yang, Fan Zhou, Hongtu Zhu
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.03714v1

摘要

arXiv:2504.03714v1 宣布类型: cross 摘要:大型语言模型(LLMs)和视觉-语言模型(VLMs)已成为通用人工智能的重要组成部分,展示出在任务理解和问题解决方面的非凡能力。然而,这些模型在现实世界中的可靠性关键取决于它们的稳定性,而稳定性仍然是一个未充分探索的领域。尽管这些模型被广泛使用,但关于这些模型在各种扰动下稳定性的严格研究仍然不足。在本文中,我们通过提出一种受信息几何统计方法启发的新颖稳定性度量,来解决这一问题。这种度量具有可喜的不变性特性,使其适用于分析模型对参数和输入扰动的敏感性。为了评估我们方法的有效性,我们在从1.5B到13B参数的模型中进行了大量的实验。我们的结果表明,我们的度量在识别重要参数以及检测输入图像中的脆弱区域或词嵌入中的关键维度方面具有实用性。此外,利用我们的稳定性框架,在模型合并过程中增强模型的鲁棒性,从而提高了模型性能。