摘要
arXiv:2502.05352v1 通知类型: 新
摘要: 实现使用AI代理来自动化关键IT任务的愿景取决于能够衡量和理解所提出解决方案有效性的能力。我们介绍了ITBench,一个框架,提供了一种系统的方法来评估AI代理以应对真正的IT自动化任务。我们最初发布的版本针对三个关键领域: sites可靠性工程(SRE)、合规与安全运营(CISO)以及财务运营(FinOps)。该设计使AI研究人员能够通过一键式工作流程和可解释的指标来了解AI代理在IT自动化中的挑战和机遇。ITBench 包含一组初始的94个真实场景,可以通过社区贡献轻松扩展。我们的结果显示,基于最新模型的代理仅能解决13.8%的SRE场景、25.2%的CISO场景以及0%的FinOps场景。我们希望ITBench 能够成为AI驱动的IT自动化的关键促成因素,使其正确、安全且快速。