摘要
arXiv:2412.08098v2 宣告类型: replace-cross
摘要:最近的研究表明,大规模语言模型(LLMs)在软件工程任务中表现出色,包括代码生成和理解。尽管LLMs在辅助编码方面显示出巨大的潜力,但人们认为LLMs容易受到 adversarial attacks 的影响。在本文中,我们调查了LLMs对不可感知攻击的脆弱性,其中源代码中的隐藏字符操纵会误导LLMs的行为,但对人类审查者来说是不可检测的。我们将这些攻击分为四个不同的类别,并分析了它们对代码分析和理解任务的影响。这四种不可感知的编码字符攻击包括编码重排、隐形编码字符、代码删除和代码同形词。为了全面评估当前LLMs解决方案对攻击的鲁棒性,我们对多款最先进的LLMs进行了系统的实验评估。我们的实验设计引入了两个关键性能指标,即使用响应的对数概率衡量的模型信心,以及响应的正确性。使用大量修改和未修改的代码片段作为主要提示输入,进行了若干受控实验。我们的研究结果证实了LLMs对不可感知编码字符攻击的易感性,而不同的LLMs在干扰程度与性能之间表现出不同的负相关关系。这些结果强调了在不可感知对抗条件下需要具有鲁棒性的LLMs的迫切需求。我们期望这项工作为增强LLMs在软件工程应用中的安全性和可信赖性提供宝贵的见解。