LLM2D

摘要

arXiv:2502.15212v1 宣布类型: 新摘要: AI智能体是能够自主实现复杂目标的AI系统。评估智能体的自主水平对于了解它们的潜在利益和风险至关重要。当前对自主性的评估往往侧重于特定的风险，并依赖于运行时评估——即在运行过程中观察智能体的行为。我们引入了一种基于代码的自主性评估方法，该方法无需运行特定任务的AI智能体即可进行评估，从而减少了运行时评估相关的成本和风险。利用这种基于代码的框架，可以按照分类学对运行AI智能体的编排代码进行评分，该分类学评估自主性的属性：影响和监管。我们通过AutoGen框架和选定的应用程序演示了这一方法。