LLM2D

摘要

arXiv:2504.05259v1 安全类型：新摘要：随着语言模型（LLM）代理越来越能够自主地造成危害，AI开发者将依赖越来越复杂的控制措施来防止可能的不一致代理造成危害。AI开发者可以通过运行控制评估来证明他们的控制措施是足够的：一种测试练习，在这种练习中，红队会生成试图规避控制措施的代理。为了确保控制评估能准确捕捉到不一致性风险，赋予红队的权限应根据要部署在控制措施下的代理的能力特征进行调整。在这篇论文中，我们提出了一种系统化的框架，用于根据不断发展的AI能力调整红队的权限。我们不假定代理总是执行人类所知的最佳攻击策略，而是展示了如何根据代理的实际能力特征来指导可控评估，从而达到更实际和成本效益更高的控制措施。我们通过考虑五个逐步进阶能力的虚构模型（M1-M5）来说明这一框架，并定义了五个不同的AI控制级别（ACLs）。对于每个ACL，我们提供了控制评估、控制措施和安全案例的示例规则。最后，我们解释了为什么为超智能LLM代理构建有说服力的AI控制安全案例需要研究突破，强调我们最终可能需要采取其他方法来降低不一致性风险。