LLM2D

摘要

大型语言模型 (LLM) 在各种现实应用中展现出自主完成任务的巨大潜力。尽管如此，这些 LLM 代理在交互环境中运行时会引入意想不到的安全风险。本工作没有像大多数先前研究那样关注 LLM 生成内容的无害性，而是着眼于在不同环境中评估 LLM 代理行为安全的必要性。我们介绍了 R-Judge，这是一个基准测试，旨在评估 LLM 在给定代理交互记录的情况下判断和识别安全风险的能力。R-Judge 包含 569 条多轮代理交互记录，涵盖 5 个应用类别和 10 种风险类型的 27 个关键风险场景。它经过高质量的策划，带有标注的安全标签和风险描述。对 R-Judge 上的 11 个 LLM 的评估表明，LLM 的风险意识还有很大的提升空间：表现最好的模型 GPT-4o 达到了 74.42%，而其他模型都没有显著超过随机水平。此外，我们发现开放式代理场景中的风险意识是一种涉及知识和推理的多维度能力，因此对 LLM 来说是一个挑战。通过进一步的实验，我们发现对安全判断进行微调可以显著提高模型性能，而简单的提示机制则失败了。R-Judge 在 https://github.com/Lordog/R-Judge 上公开提供。