LLM2D

RMCBench：评估大型语言模型对恶意代码的抵抗能力

RMCBench: Benchmarking Large Language Models' Resistance to Malicious Code

发布日期: 9/24/2024

arXiv ID: oai:arXiv.org:2409.15154v1

摘要

大型语言模型（LLMs）的出现显著影响了软件开发活动的各个方面。尽管它们带来了诸多好处，但LLMs也带来了显著的风险，包括可能生成有害内容以及被恶意开发者滥用以创建恶意代码。先前的多项研究主要集中在LLMs抵抗生成违反人类伦理标准的有害内容（如偏见或冒犯性内容）的能力上。然而，目前尚无研究评估LLMs抵抗生成恶意代码的能力。为了填补这一空白，我们提出了RMCBench，这是首个包含473个提示的基准，旨在评估LLMs抵抗生成恶意代码的能力。该基准采用两种场景：文本到代码场景，即LLMs根据描述生成代码；代码到代码场景，即LLMs翻译或完成现有恶意代码。基于RMCBench，我们对11个代表性LLMs进行了实证研究，以评估它们抵抗生成恶意代码的能力。我们的研究结果表明，当前的LLMs在抵抗生成恶意代码方面能力有限，文本到代码场景中的平均拒绝率为40.36%，代码到代码场景中的平均拒绝率为11.52%。RMCBench中所有LLMs的平均拒绝率仅为28.71%；ChatGPT-4的拒绝率仅为35.73%。我们还分析了影响LLMs抵抗生成恶意代码能力的因素，并为开发者提供了增强模型鲁棒性的启示。

查看原文下载 PDF