LLM2D
测量AI代理自主性:朝着基于代码检查的可扩展方法迈进
Measuring AI agent autonomy: Towards a scalable approach with code inspection
作者: Peter Cihon, Merlin Stein, Gagan Bansal, Sam Manning, Kevin Xu
发布日期: 2/24/2025
arXiv ID: oai:arXiv.org:2502.15212v1

摘要

arXiv:2502.15212v1 宣布类型: 新 摘要: AI智能体是能够自主实现复杂目标的AI系统。评估智能体的自主水平对于了解它们的潜在利益和风险至关重要。当前对自主性的评估往往侧重于特定的风险,并依赖于运行时评估——即在运行过程中观察智能体的行为。我们引入了一种基于代码的自主性评估方法,该方法无需运行特定任务的AI智能体即可进行评估,从而减少了运行时评估相关的成本和风险。利用这种基于代码的框架,可以按照分类学对运行AI智能体的编排代码进行评分,该分类学评估自主性的属性:影响和监管。我们通过AutoGen框架和选定的应用程序演示了这一方法。