LLM2D

摘要

arXiv:2505.09341v1 公告类型: 新摘要: AI 安全系统面临双重用途困境。因为同一个请求可能根据提出请求的人和原因的不同，要么无害要么有害，如果系统仅基于请求的内容来做决定，它将拒绝一些合法查询并让一些有害的请求通过。为解决这一问题，我们提出了一种基于验证用户凭证（如机构隶属关系）和分类器的概念访问控制框架，这些分类器将模型输出分配给风险类别（如高级病毒学）。只有当用户的验证凭证符合该类别要求时，系统才允许其做出响应。为实现模型输出分类器，我们引入了一种理论方法，该方法利用小型门控专家模块集成到生成模型中，并通过梯度路由进行训练，从而能够在不涉及外部监控能力差距问题的情况下实现高效的危险检测。尽管关于验证机制、风险类别和技术实现仍存在一些开放问题，但我们的框架为实现对 AI 能力的细粒度治理迈出了第一步：已验证的用户可以获取专业知识而不会受到任意限制，而对手则被阻止访问。这种上下文方法平衡了模型的实用性与稳健的安全性，解决了双重用途困境。