LLM2D
ITBench:跨多样化的实时IT自动化任务评估AI代理
ITBench: Evaluating AI Agents across Diverse Real-World IT Automation Tasks
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.05352v1

摘要

arXiv:2502.05352v1 通知类型: 新 摘要: 实现使用AI代理来自动化关键IT任务的愿景取决于能够衡量和理解所提出解决方案有效性的能力。我们介绍了ITBench,一个框架,提供了一种系统的方法来评估AI代理以应对真正的IT自动化任务。我们最初发布的版本针对三个关键领域: sites可靠性工程(SRE)、合规与安全运营(CISO)以及财务运营(FinOps)。该设计使AI研究人员能够通过一键式工作流程和可解释的指标来了解AI代理在IT自动化中的挑战和机遇。ITBench 包含一组初始的94个真实场景,可以通过社区贡献轻松扩展。我们的结果显示,基于最新模型的代理仅能解决13.8%的SRE场景、25.2%的CISO场景以及0%的FinOps场景。我们希望ITBench 能够成为AI驱动的IT自动化的关键促成因素,使其正确、安全且快速。