LLM2D
RMCBench:评估大型语言模型对恶意代码的抵抗能力
RMCBench: Benchmarking Large Language Models' Resistance to Malicious Code
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.15154v1

摘要

大型语言模型(LLMs)的出现显著影响了软件开发活动的各个方面。尽管它们带来了诸多好处,但LLMs也带来了显著的风险,包括可能生成有害内容以及被恶意开发者滥用以创建恶意代码。先前的多项研究主要集中在LLMs抵抗生成违反人类伦理标准的有害内容(如偏见或冒犯性内容)的能力上。然而,目前尚无研究评估LLMs抵抗生成恶意代码的能力。为了填补这一空白,我们提出了RMCBench,这是首个包含473个提示的基准,旨在评估LLMs抵抗生成恶意代码的能力。该基准采用两种场景:文本到代码场景,即LLMs根据描述生成代码;代码到代码场景,即LLMs翻译或完成现有恶意代码。基于RMCBench,我们对11个代表性LLMs进行了实证研究,以评估它们抵抗生成恶意代码的能力。我们的研究结果表明,当前的LLMs在抵抗生成恶意代码方面能力有限,文本到代码场景中的平均拒绝率为40.36%,代码到代码场景中的平均拒绝率为11.52%。RMCBench中所有LLMs的平均拒绝率仅为28.71%;ChatGPT-4的拒绝率仅为35.73%。我们还分析了影响LLMs抵抗生成恶意代码能力的因素,并为开发者提供了增强模型鲁棒性的启示。